Jesús Reynaga Obregón
La estadísti estadística ca aplicada plic ada y la l a investigación m édica 1.0 INTRODUCCIÓN La estadística aplicada a la investigación médica es una disciplina que toma conocimientos de la matemática y de la lógica para permitir la recolección, recuento, presentación, síntesis y análisis de la información surgida de proyectos de investigación en el campo de la salud. El propósito de la estadística aplicada es la medición de la variabilidad cualitativa y cuantitativa que se presenta en las características o atributos medidos en los proyectos de investigación. La estadística aplicada formula procedimientos para clasificar variables 1 y para construirles construirles sus correspondientes escalas, señala la forma de efectuar recuentos de la información, define el tipo de cuadros y de gráficos que representen más objetivamente las características de las variables, prescribe la manera de resumir series de datos y facilita la selección de pruebas estadísticas de asociación o de diferenciación. Como resultado de aplicar ordenadamente diversos procedimientos estadísticos, la investigación médica puede establecer conclusiones a propósito de los diversos factores que probablemente influyen en los fenómenos en estudio. La estadística aplicada es una disciplina predominantemente experimental; es decir, es preferentemente empírica en cuanto que, a partir de los objetivos establecidos en un proyecto de investigación, se dirige a la realidad para medir en ella diversas características y para ofrecer evidencias que permiten aceptar o rechazar las hipótesis de la investigación. La estadística hace uso del razonamiento inductivo y del analógico para permitir señalar la probabilidad con la que los hechos encontrados en fragmentos de la realidad pueden ser generalizables a realidades mayores. El dominio de los procedimientos estadísticos establecidos en el denominado método estadístico facilita, a quien practica investigación médica, la elaboración de los protocolos e informes correspondientes a los proyectos. El uso sistemático del método estadístico promueve la objetividad en la obtención de conclusiones derivadas de la investigación médica. En virtud de la necesidad de ubicar al método estadístico en un contexto real, en las siguientes páginas se encuentran algunos elementos mínimos pero fundamentales acerca de la investigación científica que permiten comprender el papel de la estadística aplicada.
1 Una
variable es una característica, cualidad o atributo que puede adoptar diferentes valores, magnitudes o intensidades en los diferentes elementos que se esudian. 1
Jesús Reynaga Obregón
2.0 LAS EXPLICACIONES DE LA CIENCIA 2.1. 2.1. ¿Qué ¿Qué es el cono cimiento científico? Se entiende por conocimiento a la posesión de datos de los fenómenos materiales y espirituales. El conocimiento científico se entiende como la posesión de explicaciones objetivas y confirmadas, pero siempre verificables, de los procesos existentes en el universo. El conocimiento científico, al ser producto del razonamiento, constituye en esencia el reflejo mental producido por los procesos existentes y representa los enlaces reales entre los componentes de los fenómenos. Considerando que los fenómenos existen independientemente de la forma en que las personas los conozcan o los imaginen, hay la posibilidad de verificar los datos referentes a dichos fenómenos. A manera de ejemplo: el fenómeno de la desnutrición desnutrición existe en el mundo y está condicionado condicionado mayormente por factores de tipo económico y escasamente por factores de tipo moral. Entonces independientemente de que sea un religioso, un sociólogo o un biólogo quien explique dicho fenómeno, la desnutrición se presenta condicionada en la realidad por los factores mencionados; lo que cambia es la forma de imaginar el fenómeno. En este ejemplo el conocimiento científico referente al condicionamiento económico de la desnutrición ha sido confirmado y puede ser verificado cuantas veces sea necesario para complementarlo y relacionarlo con otros conocimientos. No todo el conocimiento es científico; por ejemplo: la relación causa-efecto que algunas personas establecen entre la depresión de la fontanela y la diarrea que sufren los niños. Es claro que resulta imposible probar que la diarrea es causada por el hundimiento de la fontanela: sin embargo la observación de que estas manifestaciones se presentan casi siempre juntas ha generado un conocimiento de tipo no científico que se transmite por experiencia, generación tras generación. Los animales también conocen características de la naturaleza y de algunos fenómenos que en ella se presentan, pero este conocimiento tampoco es científico.
2.2. 2.2. ¿Cómo ¿Cómo surge el co nocimi ento científico? El conocimiento se origina en los procesos que ocurren en el universo, de tal manera que el universo y sus procesos constituyen la base para comprobar el conocimiento. Como ya se mencionó los fenómenos existen objetiva e independientemente de la forma en que los humanos los imaginen. Con mayor especificidad, el conocimiento científico tiene origen en las diversas actividades que el hombre realiza; y el mismo ser humano forma parte del universo. En tanto que los fenómenos del universo existen, el conocimiento se presenta como resultado de la actividad humana. Al igual que se han ido desarrollando y diversificando las actividades del ser humano a lo largo de la historia, también el conocimiento científico se ha ampliado, diversificado y actualizado. La gran variedad de actividades del ser humano procura la satisfacción de sus necesidades. Dicha satisfacción de necesidades requiere del trabajo para la elaboración de bienes y para la realización de servicios, además de su distribución entre los integrantes de la sociedad. Las modalidades que adopta la producción y la distribución y las relaciones sociales que se establecen entre los hombres para realizar estos procesos son las que permiten definir las
2
Jesús Reynaga Obregón
2.0 LAS EXPLICACIONES DE LA CIENCIA 2.1. 2.1. ¿Qué ¿Qué es el cono cimiento científico? Se entiende por conocimiento a la posesión de datos de los fenómenos materiales y espirituales. El conocimiento científico se entiende como la posesión de explicaciones objetivas y confirmadas, pero siempre verificables, de los procesos existentes en el universo. El conocimiento científico, al ser producto del razonamiento, constituye en esencia el reflejo mental producido por los procesos existentes y representa los enlaces reales entre los componentes de los fenómenos. Considerando que los fenómenos existen independientemente de la forma en que las personas los conozcan o los imaginen, hay la posibilidad de verificar los datos referentes a dichos fenómenos. A manera de ejemplo: el fenómeno de la desnutrición desnutrición existe en el mundo y está condicionado condicionado mayormente por factores de tipo económico y escasamente por factores de tipo moral. Entonces independientemente de que sea un religioso, un sociólogo o un biólogo quien explique dicho fenómeno, la desnutrición se presenta condicionada en la realidad por los factores mencionados; lo que cambia es la forma de imaginar el fenómeno. En este ejemplo el conocimiento científico referente al condicionamiento económico de la desnutrición ha sido confirmado y puede ser verificado cuantas veces sea necesario para complementarlo y relacionarlo con otros conocimientos. No todo el conocimiento es científico; por ejemplo: la relación causa-efecto que algunas personas establecen entre la depresión de la fontanela y la diarrea que sufren los niños. Es claro que resulta imposible probar que la diarrea es causada por el hundimiento de la fontanela: sin embargo la observación de que estas manifestaciones se presentan casi siempre juntas ha generado un conocimiento de tipo no científico que se transmite por experiencia, generación tras generación. Los animales también conocen características de la naturaleza y de algunos fenómenos que en ella se presentan, pero este conocimiento tampoco es científico.
2.2. 2.2. ¿Cómo ¿Cómo surge el co nocimi ento científico? El conocimiento se origina en los procesos que ocurren en el universo, de tal manera que el universo y sus procesos constituyen la base para comprobar el conocimiento. Como ya se mencionó los fenómenos existen objetiva e independientemente de la forma en que los humanos los imaginen. Con mayor especificidad, el conocimiento científico tiene origen en las diversas actividades que el hombre realiza; y el mismo ser humano forma parte del universo. En tanto que los fenómenos del universo existen, el conocimiento se presenta como resultado de la actividad humana. Al igual que se han ido desarrollando y diversificando las actividades del ser humano a lo largo de la historia, también el conocimiento científico se ha ampliado, diversificado y actualizado. La gran variedad de actividades del ser humano procura la satisfacción de sus necesidades. Dicha satisfacción de necesidades requiere del trabajo para la elaboración de bienes y para la realización de servicios, además de su distribución entre los integrantes de la sociedad. Las modalidades que adopta la producción y la distribución y las relaciones sociales que se establecen entre los hombres para realizar estos procesos son las que permiten definir las
2
Jesús Reynaga Obregón
características de la sociedad; así mismo son las que permiten conocer el grado de desarrollo social y al mismo tiempo influyen en los propios cambios sociales. De acuerdo a lo anterior, los cambios sociales que ocurren a causa de la satisfacción de las necesidades humanas obligan a la adquisición de conocimientos científicos sobre los fenómenos del mundo y éstos, a su vez, tienen influencia sobre el progreso social. Cuanto más avanza el dominio del hombre sobre el mundo, mayor resulta ser la productividad del trabajo humano; y, a la vez, el incremento de la productividad del trabajo acaba por provocar cambios en la organización social. Por su parte, los los cambios sociales influyen influyen poderosamente en el avance de la ciencia o, lo que es lo mismo, en el dominio del hombre sobre el mundo. Por tanto, tanto, la ciencia no existe por sí misma misma ni puede separarse de las otras actividades humanas, sino que es un producto de la vida social del hombre y, al mismo tiempo, ejerce una acción definida sobre la sociedad. De este modo, la ciencia ciencia sólo puede entenderse en función del desenvolvimiento histórico de la sociedad en su conjunto. 2 El conocimiento científico puede ser, en ocasiones, limitado, ya que depende de las condiciones en que ha sido logrado, Sin embargo, estas condiciones no son invariables. Por lo contrario, se modifican constantemente y cada nuevo conocimiento adquirido establece nuevas posibilidades para el mejoramiento de las propias condiciones en que ha de adquirirse más conocimiento. En consecuencia, los limites del conocimiento se ensanchan con el avance del conocimiento mismo. 3
Un ejemplo de lo mencionado está constituido por el enorme incremento de los conocimientos en cirugía surgidos a raíz de la necesidad de atender a los heridos en los conflictos armados. Dichos conocimientos han ido aplicándose para el tratamiento de padecimientos que no tiene como único origen las lesiones de guerra. Ejemplos como el anterior pueden citarse en casi todos los campos de la actividad humana y resulta fácil comprobar como el surgimiento de conocimientos es producto de las actividades humanas y como ese mismo conocimiento ha provocado cambios en las actividades y procesos sociales.
2.3 2.3 ¿Cómo ¿Cómo logra el ser humano el cono cimiento? Ya se ha mencionado que el conocimiento es la posesión de datos acerca de los fenómenos del universo. Esta posesión necesita de cuatro factores para realizarse: un sujeto pensante, el proceso psíquico del pensar, el ente o fenómeno pensado y la expresión de lo pensado. Considerando los factores mencionados, se reitera la idea de que el pensamiento se refiere a la reflexión de los procesos del universo en la mente humana. Pero no todos los pensamientos son iguales o tienen la misma categoría. La forma más simple del pensamiento es el concepto, el cual se refiere a las propiedades esenciales de un objeto sin afirmar o negar nada de él. Su expresión es el término (por ejemplo: sol, tranquilidad, once).
2 3
Farrington, B.: La Ciencia Griega. Griega. Buenos Aires, Hachette, Hachette, 1957, p. 26-27. De Gortari, E.: Introducción Introducción a la Lógica Dialéctica, México, Grijalbo. 1979, 1979, p.18.
3
Jesús Reynaga Obregón
Otro tipo de razonamiento es el llamado analógico, el cual parte de proposiciones particulares para lograr otra proposición particular. Es decir, después de reconocer semejanzas comunes a dos o más objetos, se concluye la existencia de características comunes para otros objetos similares (por ejemplo: la úlcera duodenal fácilmente produce dolor epigástrico; la úlcera gástrica también produce dolor epigástrico frecuentemente; el cáncer gástrico tiene muchas manifestaciones similares a las de las úlceras duodenales y gástricas; entonces, el cáncer gástrico produce dolor epigástrico). Es importante señalar que tanto el razonamiento deductivo como el inductivo y el analógico son formas o estructuras del pensamiento que se complementan entre sí. Dichas formas y las reglas o leyes que las fundamentan son el objeto de estudio de la lógica. Por otra parte, los elementos, procesos o entes que se están conociendo, son el objeto de estudio de cada ciencia particular. Así, los fenómenos relacionados con la existencia de la vida en la tierra son el objeto de la biología y las relaciones que se establecen entre los grupos sociales son el objeto de la sociología.
2.4 ¿Qué es la Ciencia? Por ciencia se entiende la explicación objetiva y racional del universo. Como explicación, la ciencia describe las diversas formas en que se manifiestan los procesos existentes, distingue las fases sucesivas y coexistentes observadas en el desarrollo de los mismos procesos, desentraña sus enlaces internos y sus conexiones con otros procesos, pone al descubierto las acciones recíprocas entre los procesos y encuentra las condiciones y los medios necesarios para permitir la intervención humana en el curso de los propios procesos. 4
En forma sintética podría entenderse por ciencia al conjunto sistemático de conocimientos racionales, exactos, verificables y perfectibles que explican los procesos del universo.
2.5 Característic as de la Ciencia La ciencia posee notables características; una primera es el control práctico que ella permite sobre la naturaleza. Como ejemplo pueden citarse las innumerables contribuciones que la ciencia ha hecho para la prevención de las enfermedades y la conservación de la salud. Sin embargo, no debe confundirse a la ciencia con los adelantos tecnológicos que de ella se derivan; una cosa son los conocimientos de la ciencia con respecto a la relatividad y otra cosa es su aplicación en la fabricación de armas atómicas. Un segundo rasgo sobresaliente de la ciencia destaca cuando se le considera como dirigida a la obtención de más conocimientos sistemáticos y confiables, los cuales son empleados para garantizar conclusiones válidas acerca de la forma y condiciones en que se presentan diversos fenómenos. Una tercera característica fundamental de la ciencia es su posesión de un método. Esta es una de las características más permanentes y que garantiza la confiabilidad de sus conclusiones. El método de la ciencia está constituido por fases generales que, mediante normas lógicas, permite la adquisición del conocimiento científico.
4
De Gortari, E.: Op. Cit., p.13
4
Jesús Reynaga Obregón
3.0 EL METODO CIENTIFICO 3.1 ¿Qué es el méto do? El método es considerado como la manera razonada de conducir los procesos del pensamiento con objeto de llegar a un resultado determinado y, preferentemente, al descubrimiento de la verdad 5 .
3.2 ¿Qué es el método científico? De acuerdo a la definición anterior, el método científico persigue la solución de problemas mediante el empleo de los diversos tipos de razonamiento. Es en el método científico en donde los procesos del pensamiento encuentran su más adecuada expresión al través de enunciados y argumentos que explican los fenómenos del universo. El método científico es todo un procedimiento formado por una secuencia lógica de actividades que procura descubrir las características de los fenómenos, las relaciones internas entre sus elementos y sus conexiones con otros fenómenos, mediante el raciocinio y la comprobación a través de la demostración y la verificación. Cada clase de problemas obliga a la aplicación de diferentes técnicas de acuerdo a los fenómenos inherentes a una u otra ciencia. No debe confundirse a la técnica como sinónimo de método. Una técnica es un conjunto de acciones aplicables a diversos fines; en cambio, el método es un proceso compuesto por varias fases que se aplican al ciclo entero de obtención del conocimiento. Por ejemplo, el diagnóstico de las enfermedades requiere de la aplicación del método clínico, en el cual se emplean diversas técnicas como son el interrogatorio, la inspección, la auscultación y la percusión. Al igual que el conocimiento científico, el método científico ha evolucionado a través del tiempo, especialmente en lo referente al predominio que en él se ha observado de los diversos tipos de razonamientos. Recuérdese el enfoque deductivo empleado por Aristóteles para la obtención de conocimiento, la influencia de la inducción en la época de Bacon o las aplicaciones dialécticas de Marx a partir de los conceptos Hegelianos.
3.3 ¿Cómo es el método ci entífico? El método científico parte de conocimientos previos para llegar a conocimientos nuevos. Existen conocimientos referentes a entes abstractos, ideales, que sólo existen en la mente humana; conocimientos que están representados por signos y relaciones entre ellos, por ejemplo los números y los símbolos que sirven para asociarlos en las operaciones aritméticas. Estos conocimientos son objeto de las ciencias formales 6 (lógica matemática). Por otro lado, existen conocimientos referentes a sucesos, procesos y objetos que existen fuera de la mente humana (peso, talla, volumen); estos conocimientos son objeto de las ciencias factuales 7, como por ejemplo biología y física.
5 6 7
Diccionario Léxico Hispano, 4a. ed., México, W.M. Jasckson, 1978. Bunge, M.: La ciencia, su método y su filosofía. Buenos Aires, Siglo Veinte, 1975, p. 9-36. Bunge, M.: La ciencia, su método y su filosofía. Buenos Aires, Siglo Veinte, 1975, p. 9-36.
5
Jesús Reynaga Obregón
Ambos tipos de conocimientos y ciencias se diferencian para fines de comprensión, pero en la realidad se complementan y mezclan en la vida cotidiana y, como ya se señaló, dan lugar a la adquisición de conocimientos nuevos mediante la aplicación del método científico. Con el propósito de buscar una más fácil descripción del método científico y relacionarlo con la investigación y la estadística, se inserta en seguida un esquema que auxiliará en explicaciones posteriores:
Conocimiento
Problema
Demostración (ciencias formales)
Hipótesis
Prueba de hipótesis
Conocimiento
Verificación (ciencias factuales)
3.3.1 Los problemas ci entíficos Como ya se mencionó anteriormente, los fenómenos del universo y las actividades del ser humano dan origen al conocimiento. Las características del conocimiento dependen del grado de desarrollo social, pero estos no son estáticos ni limitados, sino que avanzan continuamente influenciándose mutuamente. Ocurre que el conocimiento que en una época es adecuado para explicar los procesos que el hombre conoce llega a ser insuficiente para explicar algún fenómeno observado; el ser humano trata de encontrar las relaciones entre los elementos del fenómeno tal como esta acostumbrado a hallarlas, pero existen discordancias entre dichas relaciones; requiere modificar alguna situación con los conocimientos que posee y no le es posible; el camino para lograr su meta presenta algún obstáculo y sus patrones fijos de conducta o su razonamiento cotidiano no le permiten salvar ese obstáculo; delibera y toma conciencia de la dificultad; surge entonces su problema. En general, al enfrentarse el hombre a situaciones inhabituales para las que no tiene conocimientos suficientes surge una dificultad; si esa dificultad no se puede resolver con lo que se sabe o con las conductas instintivas, se está ante un problema. Un problema científico se plantea basándose en los conocimientos científicos existentes y se estudia por medios científicos con el propósito fundamental de aumentar el conocimiento. En todo problema científico pueden apreciarse tres aspectos fundamentales: el propio problema, es decir la explicación requerida; la pregunta; esto es, el proceso mental de entender que se desea saber algo; y finalmente, la expresión del problema, es decir el planteamiento oral o escrito en términos claramente definidos. Algunos problemas lo son solamente en apariencia (pseudo problemas) o no lo son en absoluto; es posible que lo que ocurra es que se carezca del conocimiento o no se haya establecido contacto con él, aunque dicho conocimiento ya exista. Para proceder al planteamiento de problemas se deben realizar diversas actividades entre las que se pueden citar: redacción adecuada y comprensible del problema, ubicación del problema dentro de teorías existentes, previsión de estrategias posibles para su resolución, descomposición en sus partes elementales, búsqueda de analogía con otros problemas conocidos, simplificación y simbolización en términos matemáticos y lógicos.
6
Jesús Reynaga Obregón
3.3.2 Las hipótesis científicas Si la existencia en el universo fuera tan constante que sólo se tuvieran que usar los mismos conocimientos una y otra vez y todas las actividades debieran realizarse en forma automática, sólo se tendría que recurrir al uso de la memoria y de las habilidades adquiridas; pero la existencia de problemas obliga al ser humano a buscar explicaciones satisfactorias. La adecuación de las explicaciones siempre tendrá una vigencia limitada ya que los procesos del universo son constantemente cambiantes. Precisamente es la necesidad humana de poseer esas explicaciones la que da lugar a las hipótesis. Una hipótesis es un supuesto, una explicación probable, una anticipación; y como tal debe ser comprobada. Precisamente, esa característica de respuesta anticipada hace que la hipótesis oriente y conduzca al pensamiento y a la acción hacia ciertos campos que permitirán juzgar la veracidad o falsedad de las explicaciones. Una hipótesis es una suposición que permite establecer relaciones entre hechos. El valor de una hipótesis radica en su capacidad para establecer esas relaciones entre los hechos y explicar por que se producen. 8
La peculiaridad característica de la hipótesis reside en que sistematiza el conocimiento científico y forma un sistema de abstracciones. La hipótesis es un sistema de juicios, conceptos y razonamientos sintetizados y ordenados con el propósito de explicar el fenómeno que ha de investigarse. La construcción de una hipótesis parte del conocimiento de los fenómenos de la naturaleza y la sociedad y del conocimiento ordenado en forma de leyes y teorías, sus explicaciones son comprobadas y los resultados de esa comprobación se emplean para formular y completar nuevas leyes o teorías. La realidad existente es la base, el fin y el criterio para decidir la veracidad de una hipótesis. Aunque pueda adoptar modalidades diferentes de expresión en las diferentes ciencias, la hipótesis es la guía y orientación por excelencia para captar y poseer el conocimiento que a cada ciencia corresponde. Todas las teorías existentes han pasado por fases más o menos largas de hipótesis y, de hecho, la causa de la existencia de las teorías se explican por la existencia de hipótesis. Si los científicos no formularan hipótesis ni se dedicaran a probarlas, no existirían nuevas leyes ni teorías, inclusive, no aparecerían nuevas hipótesis. Una hipótesis que ha sido probada, ya sea que se acepte o rechace, genera nuevo conocimiento que permite explicar fenómenos que no eran cabalmente comprendidos y solucionar problemas no superados. Este nuevo conocimiento determina cambios en la concepción que el hombre tenga del universo; lo cual, a su vez, acarrea cambios en las relaciones sociales que terminarán por volver a plantear nuevos problemas que habrán de requerir otras hipótesis; continuándose así, permanentemente, la conquista de conocimientos a través del método científico.
8
López Cano, J.L.: Método e hipótesis científica (parte 2) México, ANUIES, 1975, p. 29.
7
Jesús Reynaga Obregón
3.3.3. Las Consecuencias verificables d e las hi pótesis Por la razón de tener como objeto de estudio a los hechos, en la ciencias factuales la comprobación de las hipótesis implica la necesidad de deducir la forma en que se encontrarán los hechos en el caso de que las hipótesis sean ciertas. La deducción de los arreglos de hechos o los acontecimientos que habrán de observarse si la hipótesis es verdadera es una condición fundamental si, como es de esperarse, se desea proceder a probar dicha hipótesis y no quedarse en la etapa del puro planteamiento. Por otra parte, la anticipación de los hallazgos que han de encontrarse, si la hipótesis es cierta, facilita al ser humano la labor de investigar científicamente los fenómenos de la naturaleza, pues el señalamiento de las consecuencias verificables que se han deducido, orienta hacia el tipo de información que ha de recogerse y los procedimientos que han de realizarse con ella. A manera de ejemplo, considérese la siguiente hipótesis:
Es probable que la desnutrición infantil dependa mayormente del ingreso económico familiar que de los niveles educativos de los integrantes de las familias. Como puede observarse no es totalmente claro el sentido de la dependencia entre la mortalidad infantil, el ingreso económico y los niveles educativos. Además, la comprobación de esta hipótesis resulta de tal manera difícil o puede adoptar tal número de modalidades, que la comparación de los resultados de las investigaciones realizadas por diferentes investigadores sería poco menos que imposible. Si a partir de la hipótesis mencionada se deduce alguna consecuencia tal como la siguiente:
Si la hipótesis es cierta, entonces: es probable que las poblaciones con integrantes de diferentes niveles educativos pero con semejantes niveles de ingreso famili ar presenten semejantes niveles de desnutri ción i nfantil. fácilmente podrá decidirse cuáles tipos de información habría que recoger en una investigación e, inclusive, cuál sería el manejo, presentación, síntesis y análisis que habría que realizar con dicha información.
8
Jesús Reynaga Obregón
3.4. Resumen Concretando, el método científico permite la adquisición de conocimiento racional y ordenado a partir de los siguientes elementos: insuficiencia del conocimiento, planteamiento y delimitación de un problema, elaboración de hipótesis y prueba de dicha hipótesis. Un atractivo ejemplo del ciclo de adquisición de conocimiento, que muestra las etapas del método científico, está constituido por los descubrimientos del ginecólogo húngaro Ignaz Philipp Semmelweiss (1818-1865). 9 Al terminar sus estudios en la Universidad de Viena, Semmelweiss ingresó como médico asistente en la sección de maternidad del Hospital General de la Ciudad. Rápidamente adquirió fama de extravagante y fastidioso por su insistente clamor ante el gran número de fallecimientos de las parturientas. Ante sus preguntas acerca de la causa de esas muertes, la respuesta que le daban sus superiores era siempre la misma: un miasma invisible atacaba a las mujeres. Semmelweiss había observado que tan solo en el año 1846 se presentaron 451 muertes en la primera sección de maternidad, mientras que en la segunda sección sólo fallecieron 90 madres. Semmelweiss encontraba insuficiente una teoría en la que ocurría que un miasma se ensañaba en la primera sección de maternidad y era condescendiente con la segunda. Empezó a centrar su atención en las características del problema; siempre iniciaba su trabajo, rodeado de alumnos, practicando disecciones de los cadáveres de las parturientas fallecidas el día anterior. Luego, siempre acompañado de sus discípulos, realizaba la revisión de las pacientes de la primera sección. La segunda sección de maternidad, donde la muerte era menos asoladora, era atendida por parteras que jamás ponían el pie en el anfiteatro de anatomía. Semmelweiss supuso que él mismo y sus alumnos acarreaban alguna sustancia o germen desde el anfiteatro hasta las parturientas. En 1847 dio órdenes de que
cualquier persona que estuviera en el anfiteatro, realizando alguna disección, debía lavarse escrupulosamente las manos y desinfectarlas con cloruro de calcio. Tomadas estas medidas, la mortalidad debida a la fiebre puerperal que en mayo de aquel año era de 12.24 por ciento, llegó a desaparecer casi por completo al cabo de dos años mientras que en la segunda sección se mantenía estacionaria.
El conocimiento logrado por Semmelweiss, que de ninguna manera fue casual o por inspiración divina sino producto de una necesidad humana (disminuir un problema de la población), produjo importantes repercusiones en la atención médica de épocas posteriores; específicamente, inició los importantes trabajos sobre antisepsia y asepsia.
9
Tomado y resumido de: Margota, Roberto: Historia de la Medicina. México, Novaro, 1972, pp. 267-268.
9
Jesús Reynaga Obregón
4.0 PROBLEMAS 4.1 Ejercicio Resuelto Para el relato sobre la mortalidad de las parturientas mostrado en la página anterior, identifique las siguientes etapas del método científico que se le preguntan: •
Conocimiento (el conocimiento vigente en la época del estudio): El gran número de fallecimientos de las parturientas era causado porque un miasma invisible atacaba a las mujeres
•
Problema: ¿Por qué el miasma se ensañaba en la primera sección de maternidad y era condescendiente con la segunda?
•
Hipótesis: Semmelweiss supuso que él mismo y sus alumnos acarreaban alguna sustancia o germen desde el anfiteatro hasta las parturientas de la primera sección de maternidad, cosa que no ocurría con la segunda sección, donde los partos eran atendidos por parteras que jamás ponían el pie en el anfiteatro de anatomía.
•
Prueba de Hipótesis: Cualquier persona que estuviera en el anfiteatro, realizando alguna disección, debía lavarse escrupulosamente las manos y desinfectarlas con cloruro de calcio antes de acudir a la primera sección de maternidad.
•
Nuevo conocimiento: Alguna sustancia o germen acarreada desde el anfiteatro de anatomía es la causa de las defunciones de las parturientas y no un miasma invisible.
4.2 Ejercicio a resolver En el siguiente relato identifique lo siguiente: 1. Conocimiento vigente, 2. Problema, 3. Hipótesis, 4. Prueba de Hipótesis, 5. Nuevo conocimiento. Durante su servicio social, un pasante de medicina observó con agrado que la población en la que estaba realizando dicha etapa de su formación no tenía niños con desnutrición; por lo contrario, todos sin excepción eran niños eutróficos. El pasante provenía de una familia en la que se consideraba que era suficiente con realizar estudios profesionales para librar a las familias de casi cualquier problema de salud. Siempre lavarse las manos antes de comer y después de evacuar la vejiga y el intestino, siempre lavarse los dientes después de cada alimento, hacer ejercicio cotidianamente, ingerir una dieta balanceada en cada etapa de la vida, dormir al menos siete horas, entre otras eran las no rmas que él se sabía de memoria. Luego de varios meses de realizar numerosas consultas médicas apreció que todas las familias tenían muy adecuados ingresos económicos pues se dedicaban a la exportación de mole y nopal. También observó que en las familias había integrantes que podían tener licenciaturas o grados académicos superiores, pero muchos eran prácticamente analfabetas. Lo anterior no coincidía con lo que el había aprendido durante su infancia y juventud. Para resolver tal discordancia entre lo que el sabía y lo que estaba observando en su práctica médica decidió efectuar una sencilla encuesta socioeconómica. Encontró que el 90% de las familias tenían ingresos económicos que se podían calificar como muy altos y suficientes y el 10% restante tenían ingresos calificados como altos y medianos. En relación con los niveles educativos encontró una gran dispersión: el 25% de los adultos eran analfabetas, el 50% apenas habían terminado la primaria, 12.5% habían terminado la preparatoria o alguna carrera técnica y el 12.5% restante tenían alguna licenciatura o grado académico. Confirmo en la encuesta que no había ni un solo caso de desnutrición infantil. Con lo anterior se dio cuenta de que
10
Jesús Reynaga Obregón
no basta con tener una buena educación, sino que se necesita también tener un buen ingreso económico.
Hipótesis, consecuencias verificables y diseños de investigación En otros documentos 10 ha sido discutido el ciclo de la investigación científica y el papel de la estadística en la comprobación de la hipótesis de investigación. Como punto de partida, se ha dicho que siendo las hipótesis construcciones conceptuales han de ser comprobadas de manera práctica en la realidad. Conocimiento
Hipótesis
Problema
Conocimiento
Realidad
Por otra parte, se ha señalado que el método estadístico facilita y sistematiza el manejo de la información cualitativa y cuantitativa que permite la comprobación de la hipótesis de la investigación. Conocimiento
Hipótesis
Problema
Conocimiento
1 Recolección (Medición) 2 Recuento 3 Presentación estadística 4 Síntesis estadística 5 Análisis estadístico
Realidad
10 La investigación Científica y la Estadística. Departamento de Medicina Social, Medicina Preventiva y Salud Pública, Facultad de Medicina, UNAM. Serie Publicaciones Técnicas de Medicina Preventiva y Social, No. 8. Mexico, 1980
11
Jesús Reynaga Obregón
Sin embargo, resulta necesario insistir en la necesidad de efectuar deducción 11 de consecuencias verificables 12 a partir de la hipótesis de investigación ya que a partir de tales consecuencias verificables se puede seleccionar el diseño 13 de la investigación. La importancia de que una investigación posea un diseño nítido consiste en que todos los procedimientos estadísticos que habrán de utilizarse están subordinados a tal diseño. Por ejemplo: si el diseño consiste en la comparación simultánea de los promedios de tres o más grupos independientes, entonces la única prueba de análisis estadístico que corresponderá a tal diseño es la llamada de análisis de varianza. En cambio, si el diseño consiste en la comparación de las frecuencias de dos características cualitativas que se medirán en un único grupo de individuos, entonces la única prueba de análisis estadístico que estará indicada es la llamada chi cuadrada. Las consecuencias verificables se refieren a efectos que se considera que habrán de presentarse en la realidad en caso de que la hipótesis de la investigación sea cierta. En realidad, al ser anticipaciones producidas por deducciones originadas en una hipótesis, las consecuencias verificables vienen siendo, a su vez, también hipótesis. Sin embargo, las consecuencias verificables suelen ser de tal nivel de especificidad y se acostumbra a que estén redactadas de manera tan práctica u operativa que resultan sumamente orientadoras para elegir estrategias para su comprobación. Es totalmente factible que a partir de una sola hipótesis de investigación se pueda efectuar la deducción de más de una consecuencia verificable.
Hipótesis
Consecuencia verificable 1
Consecuencia verificable 2
Consecuencia verificable n
A manera de ejemplo supóngase la siguiente hipótesis general de una cierta investigación: Es probable que el germen que produce el síndrome de inmunodeficiencia adquirida (SIDA) se transmita por vía sanguínea y no por vía cutánea.
Como puede observarse, la redacción de la hipótesis solo se refiere a conceptos y términos inmateriales y, aunque señala posibles relaciones entre tales términos, no orienta a una determinada realidad en la cual efectuar comprobaciones.
11 Deducción: Obtención de conclusiones particulares y específicas a partir de premisas generales. 12 Consecuencias verificables: efectos observables y medibles en una porción específica de la realidad. 13 Diseño: Forma y estrategia general de la investigación.
12
Jesús Reynaga Obregón
La deducción de consecuencias verificables en este caso consistiría en anticipar efectos en una determinada y específica parte de la realidad en el caso de que la hipótesis fuera cierta; por ejemplo: Consecuencia verificable 1. Si la hipótesis es cierta, entonces se esp eraría que en un grupo de familias de enfermos de SIDA, en la cuales se haya presentado contacto corporal frecuente entre el enfermo y sus familiares, hubiera igual prevalencia de la enfermedad que en un grupo de familias en las que no hubiera contacto corporal frecuente. Consecuencia verificable 2. Si la hipótesis es cierta, entonces se esperaría que los familiares que hayan recibido donaciones sanguíneas de parientes con SIDA presenten tarde o temprano la enfermedad, independientemente de que no hayan tenido contacto corporal frecuente con el enfermo.
Como puede observarse, cuando solo se había leído la hipótesis general de investigación, pudieron ser imaginadas muchas y muy diversas maneras de efectuar la investigación. En cambio, una vez leídas y analizadas algunas consecuencias verificables deducidas de dicha hipótesis general uno puede anticipar estrategias bastante bien definidas para efectuar la investigación. Por ejemplo, es claro que al tratar de verificar la primera consecuencia verificable se buscaría formar dos grupos de familias en las que exista un enfermo con SIDA: unas clasificadas como familias con contacto corporal frecuente y otras clasificadas como con contacto corporal infrecuente. Una vez clasificadas se compararía, en ambos grupos, la frecuencia de casos en el transcurso del tiempo. Una vez que han quedado deducidas una o más consecuencias verificables, resulta relativamente fácil identificar los diseños de investigación pertinentes para comprobar cada una de tales consecuencias. El diseño consiste en la forma y estrategia para efectuar la comprobación de una consecuencia verificable. En el diseño queda explicado el número de grupos que habrán de formarse, las características que habrán de medirse o recogerse e, inclusive, los criterios para incluir o excluir a los individuos dentro de cada grupo. Hipótesis
Consecuencia verificable 1
Consecuencia verificable 2
Diseño 1
Diseño 2
Dos grupos ajenos
Dos grupos relacionados
13
Consecuencia verificable n
Diseño n Tres grupos ajenos
Jesús Reynaga Obregón
Si han sido deducidas correctamente una o más consecuencias verificables y, por ello mismo, han sido identificados cuidadosamente los diseños correspondientes, entonces las técnicas estadísticas a utilizar durante la o las investigaciones serán fácilmente elegibles. Por todo lo anterior, un esquema más integral para representar la relación entre la hipótesis de investigación y los diseños de investigación necesariamente debe incluir a la deducción de consecuencias verificables. Adicionalmente, ha de considerarse entonces que la correcta utilización de las técnicas del método estadístico solo ocurre una vez que se han identificado un diseño para cada una de las consecuencias verificables deducidas a partir de la hipótesis de investigación. Así pues, un esquema más integral sería el siguiente:
Hipótesis Consecuencia verificable 1
Consecuencia verificable 2
Consecuencia verificable n
Diseño
Diseño
Diseño
1 Recolección (Medición) 2 Recuento 3 Presentación estadística 4 Síntesis estadística 5 Análisis estadístico
Parte de la realidad
1 Recolección (Medición) 2 Recuento 3 Presentación estadística 4 Síntesis estadística 5 Análisis estadístico
Parte de la realidad
14
1 Recolección (Medición) 2 Recuento 3 Presentación estadística 4 Síntesis estadística 5 Análisis estadístico
Parte de la realidad
Jesús Reynaga Obregón
Problemas Para cada uno de los tres siguientes enunciados se requiere identificar si las consecuencias verificables que se han deducido a partir de sus correspondientes hipótesis son correctas o incorrectas. Es posible que una o más deducciones sean correctas o incorrectas..Justifique sus respuestas.
Enunciado 1 Hipótesis general de la investigación: Debido a la distinta forma en que son tratados a lo largo del tiempo la
y la gran mayoría de los ♣, es probable que los ♦ terminen siendo más altos hacia gran mayoría de los ♦ el final de su existencia. Consecuencia No. 1: Si la hipótesis es cierta, entonces, al comparar un grupo de ♦ con un grupo de ♣, estando ambos hacia el final de su existencia, se esperaría que el promedio de estatura de ambos grupos s ea diferente. Consecuencia No. 2: Si la hipótesis es cierta, entonces al estudiar el mecanismo de crecimiento de ambos grupos se esperaría encontrar que la sustancia aceleradora W-237 posee diferentes concentraciones a diversas horas del día. Consecuencia No. 3: Si la hipótesis es cierta, entonces, al tratar de una misma forma a lo largo del tiempo
como a un grupo de ♣, se esperaría que los promedios de estatura de ambos grupos tanto a un grupo de ♦ sean iguales hacia el final de su existencia. Enunciado 2 Hipótesis general de la investigación: Es probable que la desnutrición infantil est é más intensamente influida por el nivel de ingresos familiares que por el nivel educativo familiar. Consecuencia No. 1 Si la hipótesis es cierta, entonces, al comparar dos grupos de niños: uno formado por desnutridos y otro formado por niños sin desnutrición se esperaría que en cada grupo predominara un cierto nivel de ingresos familiar y que los niveles educativos familiares fueran igualmente diversos tanto en uno como en otro grupo. Consecuencia No. 2 Si la hipótesis es cierta, entonces, al comparar dos grupos de niños: uno formado por desnutridos y otro formado por niños sin desnutrición se esperaría que en el grupo de desnutridos predominara la falta de alimentos de origen proteico y en el grupo de niños no desnutridos las dietas se encontraran balanceadas.
Enunciado 3 Hipótesis general de la investigación: Es probable que el stress produzca aumento de peso en las glándulas suprarrenales de las ratas de experimentación. Consecuencia No. 1 Si la Hipótesis es cierta, entonces, al analizar las concentraciones de adrenalina en sangre de un grupo de ratas, antes y después de someterlas a situaciones crónicas de stress, se esperaría encontrar que existen aumentos de esta sustancia y de sus análogos químicos. Consecuencia No. 2 Si la hipótesis es cierta, entonces, al comparar dos grupos de ratas: uno sometido a situaciones de stress y otro no, se esperaría encontrar que el peso promedio de las glándulas suprarrenales de uno y otro grupo sean diferentes.
15
Jesús Reynaga Obregón
La rubeola y las malformaciones cong énitas Seleccione de entre los párrafos a) al f) los que correspondan a las siguientes etapas del Método Científico y anote la letra correspondiente: PLANTEAMIENTO DE HIPOTESIS DEDUCCION DE CONSECUENCIAS VERIFICABLES DISEÑO DE LA INVESTIGACION a) Se elaboraron tablas de asociación para mostrar, simultáneamente, el antecedente positivo o negativo de rubeola durante el embarazo y la presencia o ausencia de malformaciones congénitas. b) Al final se concluyó que eran más frecuentes los casos de microcefalia y de defectos congénitos cardíacos entre los hijos de las madres que habían padecido rubeola. c) Se formaron dos grupos: uno de niños con microcefalia y defectos congénitos cardíacos y uno de niños con otro tipo de padecimientos presentes desde el nacimiento. En ambos grupos se averiguó el tipo de enfermedades padecidas por la madre durante la gestación. d) Se supuso que podría haber asociación entre la rubeola y la presencia de microcefalia y de defectos cardíacos congénitos. e) Para sintetizar la información se hicieron cálculos de proporciones. f) Si la hipótesis era cierta, se esperaba que la gran mayoría de los niños con microcefalia y malformaciones cardíacas congénitas procedieran de madres que habían padecido rubeola durante el embarazo.
16
Jesús Reynaga Obregón
El Método Estadístico El método estadístico consiste en una secuencia de procedimientos para el manejo de los datos cualitativos y cuantitativos de la investigación. Dicho manejo de datos tiene por propósito la comprobación, en una parte de la realidad, de una o varias consecuencias verificables deducidas de la hipótesis general de la investigación. Las características que adoptan los procedimientos propios del método estadístico dependen del diseño de investigación seleccionado para la comprobación de la consecuencia verificable en cuestión. El método estadístico tiene las siguientes etapas: 1. Recolección (medición) 2. Recuento (cómp uto ) 3.
Presentación
4.
Síntesis
5. Análisis Tales etapas siempre se encuentran en el orden descrito y cada una de ellas consiste, de manera resumida, en lo siguiente: 1.
Recolecció n (medició n) En esta etapa se recoge la información cualitativa y cuantitativa señalada en el diseño de la investigación. En vista de que los datos recogidos suelen tener diferentes magnitudes o intensidades en cada elemento observado (por ejemplo el peso o la talla de un grupo de personas), a dicha información o datos también se les conoce como variables. Por lo anterior, puede decirse que esta etapa del método estadístico consiste en la medición de las variables. La recolección o medición puede realizarse de diferentes maneras; a veces ocurre por simple observación y en otras ocasiones se requiere de complejos procedimientos de medición; en algunas ocasiones basta con una sola medición y en otras se requiere una serie de ellas a lo largo de amplios períodos de tiempo. La calidad técnica de esta etapa es fundamental ya que de ella depende que se disponga de datos exactos y confiables en los cuales se fundamenten las conclusiones de toda la investigación. Es tan grande la importancia de esta etapa que algunas clasificaciones de las investigaciones se basan en la forma en que ocurre la medición; por ejemplo si la información es recogida en una sola ocasión suele decirse que la investigación es transversal; en cambio, si la información es recogida a lo largo del tiempo se denomina longitudinal a la investigación. En ocasiones, la recolección de la información debe ocurrir en grupos tan grandes de individuos que se hace impráctico tratar de abarcar a todos ellos; entonces es cuando se ponen en práctica procedimientos de muestreo. Tales procedimientos de muestreo están
17
Jesús Reynaga Obregón
subordinados a la consecuencia verificable que se desea comprobar y al diseño de investigación seleccionado. 2.
Recuento (cómp uto) En esta etapa del método estadístico la información recogida es sometida a revisión, clasificación y cómputo numérico. A veces el recuento puede realizarse de manera muy simple, por ejemplo con rayas o palotes; en otras ocasiones se requiere el empleo de tarjetas con los datos y, en investigaciones con mucha información y muchos casos, puede requerirse el empleo de computadoras y programas especiales para el manejo de bases de datos. En términos generales puede decirse que el recuento consiste en la cuantificación de la frecuencia conque aparecen las diversas características medidas en los elementos en estudio; por ejemplo: el número de personas de sexo femenino y el de personas de sexo masculino o el número de niños con peso menor a 3 kilos y el número de niños con peso igual o mayor a dicha cifra.
3.
Presentación En esta etapa del método estadístico se elaboran los cuadros y los gráficos que permiten una inspección precisa y rápida de los datos. La elaboración de cuadros, que también suelen llamarse tablas, tiene por propósito acomodar los datos de manera que se pueda efectuar una revisión numérica precisa de los mismos. La elaboración de gráficos tiene por propósito facilitar la inspección visual rápida de la información. Casi siempre a cada cuadro con datos le puede corresponder una gráfica pertinente que represente la misma información. Presentar la misma información tanto en un cuadro como en su correspondiente gráfico permite obtener una clara idea de la distribución de las frecuencias de las características estudiadas.
4.
Síntesis En esta etapa la información es resumida en forma de medidas que permiten expresar de manera sintética las principales propiedades numéricas de grandes series o agrupamientos de datos. La condensación de la información, en forma de medidas llamadas de resumen, tiene por propósito facilitar la comprensión global de las características fundamentales de los agrupamientos de datos. Tales medidas de resumen, al ser comunicadas, permiten a los interlocutores evocar de una misma manera la esencia de los datos; por ejemplo, cuando alguien informa que el promedio de calificaciones de un grupo de alumnos es 9.6, en una escala que va del 0 al 10, la imagen que se transmite es la de un grupo con buen aprovechamiento escolar; igualmente, cuando se dice que el porcentaje de defunciones con una cierta técnica quirúrgica es de 80%, las personas que escuchan se imaginan que se trata de un procedimiento peligroso.
18
Jesús Reynaga Obregón
La información cualitativa, como el sexo, la ocupación o los tipos de enfermedades, requiere ser condensada a través de medidas de resumen diferentes a la que se usan para sintetizar la información cuantitativa o numérica como el peso, la talla o la concentración de glucosa. Entre las principales medidas de resumen para sintetizar a los datos cualitativos se encuentran las razones, las proporciones y las tasas. Entre las principales medidas pa ra sintetizar los datos cuantitativos se encuentra la moda y la amplitud, la mediana y los percentiles y el promedio y la desviación estándar. 5.
Análisis En esta etapa, mediante fórmulas estadísticas apropiadas y el uso de tablas específicamente diseñadas, se efectúa la comparación de las medidas de resumen previamente calculadas; por ejemplo, si antes se han calculado los promedios de peso de dos grupos de personas sometidas a diferentes dietas, el análisis estadístico de los datos consiste en la comparación de ambos promedios con el propósito de decidir si parece haber diferencias significativas entre tales promedios. Existen procedimientos bien establecidos para la comparación de las medidas de resumen que se hayan calculado en la etapa de descripción. Tales procedimientos, conocidos como pruebas de análisis estadístico cuentan con sus fórmulas y procedimientos propios. Cada prueba de análisis estadístico debe utilizarse siempre en función del tipo de diseño de investigación que se haya seleccionado para la comprobación de cada consecuencia verificable deducida a partir de la hipótesis general de investigación.
En los primeros párrafos se mencionó que el método estadístico es una secuencia ordenada de procedimientos para el manejo de los datos en las investigaciones. Luego de haber revisado las características y propósitos de las diversas etapas del método, parece quedar claro que tal secuencia guarda siempre el orden descrito. Es lógico efectuar el recuento de la información ( 2a. etapa, Recuento) solo hasta que previamente fue recogida ( 1a. etapa, Recolección o Medición). Antes de condensar la información en la etapa de síntesis ( 4a. etapa) siempre conviene haberla comprendido a través de la elaboración de cuadros y gráficos ( 3a. etapa Presentación). Desde luego es impensable efectuar análisis estadístico ( 5a. etapa, Análisis) para comparar medidas de resumen si antes estas no han sido calculadas ( 4a. etapa, Síntesis) Por lo anterior, puede considerarse a la estadística como una disciplina que posee su propio método. Tal disciplina emplea conocimientos de otras ciencias como la lógica y la matemática y por ello se dice que la estadística es una forma razonable de emplear el sentido común y la aritmética para el manejo de los datos en las investigaciones.
19
Jesús Reynaga Obregón
En la siguiente ilustración se esquematiza la relación que existe entre la estadística y las etapas de la investigación científica:
Conocimiento
Problema
Hipótesis Deducción de consecuencias verificables Diseño de investigación
2. 3. 4. 5. 6.
Método Estadístico Recolección Recuento Presentación Síntesis Análisis
Realidad
20
Conocimiento
Jesús Reynaga Obregón
Problema La mortalidad de los médicos por cáncer pulmo nar en relación con el hábito de fumar A manera de recordatorio, en el siguiente esquema, con los números 1. al 5. se muestran las etapas del Método Estadístico :
Conocimiento
Problema
Hipótesis
Conocimiento
Deducción de consecuencias verificables Diseño de investigación
1. 2. 3. 4. 5.
Método Estadístico Recolección Recuento Presentación Síntesis Análisis
Realidad Con el mismo sistema de enumeración empleado en el esquema anterior, identifique las etapas del Método Estadístico que se encuentren presentes en el siguiente relato y anote las letras correspondientes en los recuadros de los párrafos (algunos recuadros pueden quedar vacios):
Al revisar las estadísticas de enfermedades y defunciones por enfermedades pulmonares se encontró que casi todos los casos de enfisema pulmonar y varios de cáncer pulmonar tenían en muchas ocasiones el antecedente de tabaquismo crónico.
Sin saber el por qué de tal relación, en un estudio de numerosos casos de cáncer pulmonar se observó que alrededor del 70% de los enfermos eran antiguos fumadores.
Esto hizo pensar que el consumo de tabaco pudiera ser un factor favorecedor o causal del cáncer pulmonar.
Si lo anterior fuera cierto, podría inferirse lo siguiente: a) Un grupo de fumadores de determinada edad, sexo y nivel socioeconómico presentaría un número mayor de muertes por cáncer pulmonar que un grupo de no fumadores de edad, sexo y nivel socioeconómico similares y b) La frecuencia de cáncer pulmonar sería mayor al aumentar el número de cigarrillos consumidos.
Luego de discutir si convenía formar un grupo de médicos fumadores y seguirlo a lo largo de varios años o formar un grupo de médicos fumadores y uno de no fumadores, se resolvió hacer la investigación enviando un cuestionario a un único pero numeroso grupo de médicos del Reino Unido.
21
Jesús Reynaga Obregón
De ellos, se solicitaron datos individuales sobre, edad y hábitos de fumar por medio del cuestionario de referencia. Dicho cuestionario fue puesto a prueba para comprobar que medía con precisión las diversas variables en estudio. Se establecieron además conexiones con el Registro de Defunciones para asegurar la información sobre la mortalidad por cáncer pulmonar que fuera ocurriendo en los médicos a quienes se incluy ó en el estudio.
Aunque el número de datos preguntados a cada médico era pequeño, la cantidad de médicos a quienes se envió el cuestionario sumaba varios miles. Por ello tuvo que hacerse uso de las que en esa época se consideraban modernas computadoras.
Los datos se mostraron solamente en forma de cuadros o tablas.
El resumen de la información obtenida se expresó en tasas de mortalidad por cada mil médicos.
Las tasas de mortalidad por cada mil médicos fueron comparadas para averiguar si parecían existir
diferencias significativas, desde el punto de vista estadístico entre quienes murieron por cáncer pulmonar según el antecedente de si fumaban o no.
Los resultados mostraron que el riesgo de morir fue 14 veces mayor en fumadores que en no fumadores. También se observó que en los fumadores la frecuencia de éstas muertes aumentó cuando la cantidad de tabaco que se consumía era mayor.
22
Jesús Reynaga Obregón
La recolecció n co mo prim era etapa del método estadístico Introducción: La primera etapa del método estadístico es la de recolección. El término recolección se refiere a un conjunto de acciones que permiten disponer de la información cuantitativa y cualitativa estrictamente necesaria para comprobar las consecuencias verificables que se hayan deducido de una hipótesis. El conjunto de acciones que permite poseer dicha información está orientado por el tipo de diseño de investigación que se haya seleccionado para comprobar a cada una de las consecuencias verificables. A lo largo de este documento se utilizará como término equivalente de recol ección al de medición, ya que lo que realmente se hace al recoger información es una especie de medición de la magnitud, intensidad o tipo de variación que tienen diversas características o atributos. Como ejemplos de recolección de información cuantitativa se pueden mencionar: la medición del peso al nacer de un grupo de niños, la medición de la duración de las consultas médicas otorgadas por un grupo de médicos, la medición de la cantidad de glucosa sanguínea de un grupo de enfermos de diabetes, etc. Como ejemplos de recolección de información cualitativa se pueden mencionar: la medición del grado de aceptación del embarazo en un grupo de adolescentes, la medición de la agilidad de un grupo de atletas, la medición del color de los ojos de un grupo de personas, etc. Componentes de la recolección: 1. El observador o responsable de la medición En el caso de la investigación científica, el observador o responsable de la medición usualmente es el mismo investigador. En ocasiones, cuando la investigación es realizada por un grupo de investigadores, suele designarse a alguno de los integrantes como encargado de efectuar la medición de las características o atributos que servirán para comprobar las consecuencias verificables que se hayan deducido de la hipótesis de la investigación. Tanto si es el propio investigador el que realiza la medición como si es alguno de los miembros de un grupo, la observación que realice debe buscar mediciones válidas y confiables. La impreparación del observador o su falta de cuidado puede provocar que las mediciones efectuadas no proporcionen información útil para el proceso de investigación. Muchas de las investigaciones requieren que el observador tenga una alta preparación en técnicas de medición específicas para determinado tipo de investigaciones; por ejemplo, la medición de actitudes requiere de una preparación que tal vez incluya estudios especializados en el campo de la psicología, la medición de alteraciones anatómicas puede requerir de preparación especializada en técnicas radiológicas modernas o la medición de características microscópicas puede requerir de entrenamiento en técnicas de microscopía electrónica.
23
Jesús Reynaga Obregón
2. Las característi cas medidas o variables Para fines estadísticos las características o atributos a los que se mide su magnitud, intensidad o valor se denominan variables. En algunos casos la característica que se mide admite una valoración cuantitativa de tipo numérico, como la estatura o el número de aciertos en un examen; en otras ocasiones la característica que se mide solo admite valoraciones cualitativas en términos de palabras, como el color de ojos o los oficios a que se dedica un grupo de personas. Tanto si las variables recogidas son de tipo cuantitativo como si son de tipo cualitativo, deben haberse definido a la luz del diseño de investigación y deben servir precisamente para comprobar la consecuencia verificable que originó la selección de dicho diseño. 3. El procedimiento de medición Los procedimientos de medición o recolección son tan variados que su enumeración sería vastísima. Algunos procedimientos consisten en la observación visual y el registro de lo observado; por ejemplo, si se deseara investigar la forma en que un grupo de amas de casa prepara los alimentos en su hogar, una forma sería observarlas y efectuar las anotaciones pertinentes. Otros procedimientos consisten en efectuar preguntas directas; por ejemplo si se deseara averiguar el tiempo que emplean en transportarse a su escuela los estudiantes de alguna licenciatura, una forma podría ser interrogar con precisión a una muestra de dichos estudiantes. En otras ocasiones los procedimientos pueden consistir en pedir que sea contestado un cuestionario, ya sea con preguntas abiertas o con preguntas con opciones. En algunas disciplinas los procedimientos de recolección o medición son efectuados a través de dispositivos y técnicas que proporcionan valores de tipo numérico; por ejemplo, para recoger la magnitud de las estaturas de un grupo de niños puede emplearse desde una cinta métrica hasta un preciso escalímetro. En algunos casos, los procedimientos de medición llegan a adquirir niveles extremados de precisión; por ejemplo, para medir la duración de algunos fenómenos es posible emplear relojes que miden hasta millonésimas de segundo. En otros casos los procedimientos de recolección implican el empleo de sustancias que desencadenan reacciones biológicas o químicas que ponen en evidencia alguna característica o atributo que, al ser medida reflejan su real magnitud o intensidad. Problemas: características de la recolecció n Problema 1. Un joven pasante de medicina fue contratado por una fábrica constructora de espejos para que estableciera programas integrales de prevención y control de enfermedades y accidentes en el trabajo, pues los propietarios de la empresa estaban preocupados por la abundante cantidad de heridos que ya se habían presentado en el curso de los cinco años que tenia en funcionamiento la fábrica. Aunque su consultorio estaba ubicado en la planta alta de la sección de corte y esmerilado de los espejos y tenía acceso directo a ella a través de un moderno elevador, el joven pasante siempre procuraba llegar a su oficina por una escalera exterior del edificio, pues le causaba molestia el intenso ruido producido por la maquinaria de corte y esmerilado. Con el propósito de averiguar las razones de los numerosos accidentes, el pasante citaba diariamente a dos trabajadores a su consultorio y los interrogaba acerca de su edad, horario de entrada y salida, nivel educativo, sueldo y cursos de entrenamiento en el manejo de vidrio que hubieran tomado. Luego de haber entrevistado a los 189 trabajadores de la fábrica, el pasante propuso a los dueños de la empresa que: a) solo contrataran a trabajadores mayores de 28 años y menores de 45, b)
24
Jesús Reynaga Obregón
establecieran dos jornadas de descanso en el curso del día, c) incrementaran los sueldos de los trabajadores, y d) realizaran dos cursos anuales y obligatorios sobre prevención de accidentes. Preguntas: a. ¿Qué entrenamiento, además de los estudios regulares de medicina, debiera tener el responsable de un programa de prevención y control de enfermedades y accidentes en una fábrica de espejos? b. ¿Que procedimiento de recolección de información utilizó el pasante? ¿Debió haber utilizado otro procedimiento? Problema 2. En contra de lo que se suponía, un profesor de primaria pensaba que no era cierto que los escolares aplicados siempre se sientan en las primeras filas de asientos. El opinaba que esos lugares suelen ser ocupados por los niños que no oyen o ven bien. Para comprobar lo anterior, compró una carta de optotipos como las que se usan en las ópticas y un viejo y ruidoso reloj de cuerda y clasificó la visión y audición tanto de los niños de las primeras filas como de los de las últimas. Preguntas: a. ¿Cuáles fueron los instrumentos de medición? ¿El investigador debió haber utilizado otros instrumentos? ¿ Cuáles serían? b. ¿Cuáles son los nombres de las tres características medidas por el investigador en los niños? Problema 3. En nuestro país se realizan censos de población cada 10 años ( el último se realizó apenas en 1990). Tales censos se aplican en la inmensa mayoría de las casas y es raro que existan familias que no recuerden tal evento, pues la cobertura de los censos se ha incrementado década con década. Interrogue a sus familiares acerca de las preguntas que se les hicieron en el último censo y haga una lista de ellas. Una vez que disponga de la lista, califique a cada pregunta según si fue respondida con exactitud o no. En el caso de las preguntas para las que se otorgaron respuestas inexactas señale las posibles razones. Problema 4. Identificándose como estudiante que realiza una práctica escolar acuda a la óptica más cercana a su domicilio y averigüe lo siguiente: • • • •
•
Tipo de preparación del optometrista Nombre de los instrumentos que emplea Tipo de registros utilizados para hacer sus anotaciones Nombre de las unidades en que se registran los resultados de los exámenes de agudeza visual Tipo de errores que pueden cometerse en la medición de la agudeza visual atribuibles a: ♦ ♦ ♦ ♦ ♦
el optometrista el paciente el equipo el procedimiento de medición el registro de los resultados de la medición
25
Jesús Reynaga Obregón
Variables y s us escalas Identificar y clasificar variables son las primeras habilidades que se deben dominar para que después se puedan seleccionar y aplicar adecuadamente diversos procedimientos estadísticos. 1. Definición En todos los sujetos u objetos que se estudian se pueden medir características diversas; por ejemplo su color, su peso o su longitud. Las características, cualidades o atributos que se estudian en cada elemento pueden adoptar diferentes valores, magnitudes o intensidades; por ejemplo, si se estudia a un grupo de personas y se les mide su estatura se encontrará que unas son más altas o más bajas que otras; si se observa su color de cabello se encontrará que unas lo tienen rubio, otras castaño, otras de color negro y otras de color blanco. Por el hecho de que la estatura adopta diversas magnitudes entre el grupo de personas y que su color del cabello presenta diversos valores, a ambas características se les denomina variables. Es casi inimaginable la cantidad de variables cuyas magnitudes, valores o intensidades se pueden estudiar en un grupo de personas; para mencionar solamente algunas, considérese que al grupo de personas mencionadas también se les podría estudiar otras variables, por ejemplo los diferentes colores que pueden tener sus ojos, su estado civil, su opinión con respecto a la atención que les presta el médico, el número de ocasiones en que acuden a pláticas de orientación nutricional, su concentración de glucosa en sangre o la distancia entre sus pupilas. En resumen, puede decirse que una variable es toda característica, cualidad o atributo susceptibl e de ser medida en los sujetos u ob jetos que se estudian. 2.0 Clasificación de las variables Cuando se mide una variable el resultado de la medición a veces se expresa cualitativamente en términos de palabras o cuantitativamente en términos numéricos. A las variables del primer tipo se les denomina cualitativas y a las del segundo tipo cuantitativas. Las variables cualitativas se clasifican en nominales y ordinales. Son nominales si el resultado de su medición constituye una escala en la que no se aprecia orden o jerarquía entre las diversas modalidades de dicha escala; por ejemplo para la variable estado civil se puede formar la siguiente escala en la que las modalidades no tienen jerarquía una sobre otra: solteros casados, viudos divorciados, en unión libre. Son variables ordinales aquellas en las que las modalidades que integran la escala implican una jerarquía u orden entre ellas; por ejemplo, la variable grado militar es un claro ejemplo del tipo ordinal ya que su escala muestra orden o jerarquía entre sus modalidades: generales, jefes, oficiales, tropa. Las variables cuantitativas se clasifican en discretas y continuas. Las variables cuantitativas son discretas si el resultado de haberlas medido se puede expresar solo en términos de números enteros; por ejemplo: el número de hijos que tienen las familias se mide en cifras enteras: cero hijos, un hijo, dos hijos, etc. Las variables cuantitativas son continuas si al medirlas el resultado se puede expresar en términos de cifras fraccionarias; por ejemplo, la temperatura en diversas personas puede valer 36.7, 36.5, 36.8, etc.
26
Jesús Reynaga Obregón
Con frecuencia tan solo con conocer el nombre de una variable resulta posible clasificarla; por ejemplo: la variable nacionalidad debe ser cualitativa nominal pues al pensar en los resultados de haberla medido en grupos de personas solo vienen a la mente términos tales como nacional y extranjero o términos como mexicano, peruano, costarricense, etc. De ninguna manera se le ocurre a uno pensar que en tales escalas existe jerarquía y por ello la variable no podría ser cualitativa ordinal. La variable nacionalidad tampoco podría ser cuantitativa, pues la nacionalidad no admite cuantificaciones de ningún tipo. En algunas ocasiones el nombre otorgado a algunas variables es indicativo muy aproximado de su clasificación; por ejemplo: la variable número de embarazos es susceptible de ser clasificada como cuantitativa discreta y no como cuantitativa continua pues no existe tal cosa como 2.5 ó 3.75 embarazos. En otras ocasiones el nombre de la variable no permite fácilmente su clasificación; por ejemplo: la variable disminución de peso puede ser clasificada por algunos como cualitativa ordinal y por otros como cuantitativa continua; en el primer caso la escala que se supuso pudo ser: excelente, buena, regular, mala y nula; en el segundo caso la escala pudo haber sido supuesta como: menos de 3.000 kgrs, 3.000 a 5.999 kgrs, 6.000 a 8.999 kgrs., etc. 3.0 Otra clasificación de las variables La anterior clasificación de las variables sirve a propósitos estadísticos y se basa en el nivel de medición al que ha podido llegarse al medir a la variable. Otra clasificación de utilidad es la que clasifica a las variables desde un punto de vista metodológico en independientes y dependientes. Es independiente una variable que antecede u origina a otras. Por otro lado, una variable se denomina dependiente si es consecuente a otras. Esta clasificación es muy conveniente para analizar el modo en que se relacionan diversas variables entre sí. A manera de ejemplo se presenta una hipótesis de investigación que contiene ambos tipos de variables: “Es probable que la desnutrición infantil esté más intensamente condicionada por el nivel de ingresos de las familias que por el nivel educativo de sus integrantes”; obsérvese el esquema que se ha elaborado para clasificar metodológicamente a las variables:
Variables ind ependient es
Variables dependi entes
Nivel de ingresos de las familias Desnutrición infantil Nivel educativo de los integrantes En el esquema se aprecia que a las variables Nivel de ingresos de las familias y Nivel educativo de los integrantes no les antecede ninguna otra variable y por ello son clasificadas como independientes; por otra parte se nota que la variable Desnutrición infantil es efecto o resultado de las dos anteriores y por ello se clasifica como dependiente. Tanto la clasificación desde el punto de vista del nivel de medición como la clasificación desde el punto de vista metodológico coexisten y pueden aplicarse simultáneamente a las variables. Por ejemplo, la variable Desnutrición infantil desde el punto de vista metodológico se clasifica como dependiente y desde el punto de vista de su nivel de medición se puede clasificar como cualitativa ordinal en el supuesto de que su escala estuviera constituida por las modalidades desnutrición de primer grado, desnutrición de segundo grado y desnutrición de tercer grado.
27
Jesús Reynaga Obregón
4.0 Escalas de las v ariables Como resultado del proceso de medición de una variable surge una escala que muestran los diversos valores o intensidades que puede adoptar tal característica. La escala, además de facilitar la clasificación de la variable, permite prepararse para contar la frecuencia con que se presentaron sus diversos valores. A continuación se muestran algunos ejemplos. Escala para una variable cualitativa nomin al
Nomb re de la vari able
ESTADO CIVIL Solteros Casados Viudos
Su escala de modalidades
Divorciados En Unión Libre Escala para una variable cualitativa ordi nal
Nombre de la variable
Posici ón en el empleo Gerentes Supervisores Jefes de Departamento
Su escala de modalidades
Oficinistas Auxiliares Como se puede apreciar, la escala de las variables cualitativas, tanto nominales como ordinales, están constituidas por renglones denominados modalidades.
Escala para una variable cuantitativa di screta Pacientes atendidos por jor nada laboral 0a3
Nombre de la variable Su escala de intervalos
4a7
(Sinónimo de intervalos:
8 a 11 12 a 15
clases)
16 a 19
28
Jesús Reynaga Obregón
Escala para una variable cuantitativa continu a Nombre de la variable
Duración de las consultas 10.0 a 14.9 minutos
Su escala de intervalos
15.0 a 19.9 minutos
(Sinónimo de intervalos:
20.0 a 24.9 minutos 25.0 a 29.9 minutos
clases)
30.0 a 34.9 minutos Como se puede apreciar, la escala de las variables cuantitativas, tanto discretas como continuas, están constituidas por renglones denominados intervalos o clases. 5.0 Requisitos de las escalas de las variables Las escalas para cualquier tipo de variable deben cumplir, entre otras, con las siguientes normas: 1. La escala debe ser exhaustiva; es decir, sus modalidades o clases deben abarcar a todo el tipo posible de mediciones que se vayan a efectuar. En los siguientes ejemplos se aprecian escalas que no son exhaustivas: OPINION SOBRE LAS CONDICIONES DE LA S AUL A Muy buena
PESO DE UN GRUPO DE ADOLESCENTES (KGRS.) 30 a 34
Regular
35 a 39
Mala
40 a 44
Muy mala
50 a 54 55 a 59
Falta la modalidad Buena
Falta la clase 45 a 49
2. La escala debe contener modalidades o clases mutuamente excluyentes. Lo anterior se refiere al hecho de que cualquier medición realizada pueda ser ubicada en una o en otra modalidad o clase sin confusiones o ambigüedades de ningún tipo. En los siguientes ejemplos se aprecian escalas con modalidades o clases que no son mutuamente excluyentes: AGIL IDAD MOSTRADA EN UN EVENTO ATLETICO Estupenda
PESO DE UN GRUPO DE ADOLESCENTES (KGRS.) 30 a 34
Excelente
33 a 39
Buena
40 a 44
Regular
45 a 49
Mala
50 a 54
29
Jesús Reynaga Obregón
Las modalidades Estupenda y Excelente se traslapan
La clase 33 a 39 se traslapa con la de 30 a 34; porque un individuo de 34 kgrs. podría ubicarse tanto en una como en otra clase.
3. La escala debe contener modalidades o clases pertenecientes a una única variable. Lo anterior significa que no deben mezclarse modalidades de o clases de una escala con las de otra, aunque sean sumamente parecidas. En los siguientes ejemplos se aprecian modalidades o clases que no pertenecen a una misma variable:
TIPO DE DIETA Hipocalórica Normocalórica Hipercalórica Equilibrada Las tres modalidades relativas a calorías pueden pertenecer a la escala de una sola característica y la modalidad Equilibrada puede pertenecer a otra escala perteneciente a otra diferente característica. Así, despejando la mezcla de escalas y modalidades, las escalas de dos diferentes características o variables pueden quedar de la siguiente manera:
Tipo de dieta según aporte calórico Hipocalórica
Tipo de dieta según equilibrio de nutrientes Equilibrada
Normocalórica
Desequilibrada
Hipercalórica
Como puede observarse, aunque son muy parecidas, las características que se desea medir son diferentes y a cada una de ellas le corresponde su propia escala de modalidades.
30
Jesús Reynaga Obregón
6.0 Problemas Problemas de clasificación de variables Clasifique a cada variable marcando con una cruz en la columna correspondiente
Nombre de la variable y escala correspondiente 1
2
3
4
5
7
8
9
10
Cualitativa nominal
Agilidad mostrada al saltar un charco: Mínima Regular Buena Sexo: Masculino Femenino Disminución de peso bajo un régimen de dieta (kgr. enteros): 01 - 05 06 - 10 11 - 15 16 – 20 Disminución de peso bajo un régimen de dieta deficiente regular buena excelente Grado militar: Jefes Oficiales Tropa Escolaridad: An alf abet a Sabe leer y/o escrib ir (sin haber asistido a la escuela) Primaria incompleta Primaria completa Educación media incomp leta Educación media o mayor Escolaridad (años completos): 0 años 01-06 años 07-09 años 10-12 años 13-18 año s Convulsiones: 1-3 4-6 7-9 Convulsiones: Tónico-clónicas Tónicas
31
Cualitativa ordinal
Cuantitativa discreta
Cuantitativa continua
Jesús Reynaga Obregón
Problemas de identificación d e variables
1. Identifique a las variables contenidas en el siguiente relato y clasifíquelas tanto desde el punto de vista de su nivel de medición como desde el punto de vista metodológico. Un investigador suponía que la presencia o la ausencia de microcefalia podía estar determinada porque la madre hubiera o no tenido rubéola durante el embarazo.
2. Identifique a las variables contenidas en el siguiente cuadro y clasifíquelas tanto desde el punto de vista de su nivel de medición como desde el punto de vista metodológico. Obreros según intensid ad del esfuerzo físico laboral desarrollado y participación en el equipo deportivo de la empresa Intensidad del esfuerzo físico laboral
Participación en el equipo deportivo Cotidiana
Ocasional
Nula Totales
Ligero
47
12
56
115
Moderado
10
80
12
102
Intenso
74
14
106
194
411
32
Jesús Reynaga Obregón
Problemas de construcción de escalas Identifique y corrija los problemas de falta de mutua exclusividad, de falta de exhaustividad o de duplicación de variables que se encuentran en los siguientes cuadros:
1
4
Estado Civil
2
Grado Militar
3
Agilidad
Soltero
Jefes
Excelente
Casado
Oficiales
Buena
Viudo
Tropa
Regular
Divorciado
Capitanes
Mala
Unión Libre
Pésima
Pareja
Torpe
Material de construcción de los techos d e las viviendas
5
Tipo de dependencia académica en la UNAM
6
Opinión sobre las march as en vía pública
Cemento
Escuelas
Autorizar
Madera
Facultades
Prohibir
Lámina metálica
Centros de investigación
Sin opinión Permitir
7
Opinión sobr e el estado de salud luego de una cirugía Mejor
8
Resultados de una votación
9
Resultado en un examen
A favor
No se presentaron
En contra
Reprobaron
Peor
Abstención
Sin opinión
De acuerdo
Aprobaron con mención honorífica
33
Jesús Reynaga Obregón
10
Número de hijo s
Habitantes de un 11 grupo de ciudades
12
Pesos de un grup o de niños en gramos
1a3
0 a 9,999
0 a 2,999
4a6
10,000 a 19,999
3,000 a 5,999
8a9
20,000 a 39,999
6,000 a 9,999
10 a 12
40,000 a 49,999
8,999 a 11,999 12,000 a 14,999
13
Convulsiones al mes en un grupo de epilépticos
Número de votos 14 obtenidos por el jef e de g ru po
15
Concentración de glucos a en sangre
0a2
Escasos
Menos de 60 mgrs/ml
3a5
Abundantes
60 a 89 mgrs/ml
6a8
Más de 30
90 a 119 mgrs/ml
7 a 10
120 a 149 mgrs/ml
11 a 14
150 a 179 mgrs/ml Más de 180 mgrs/ml
16
Concentración de glucos a en sangre
17
Personas según edad (en salud pública)
18
Grupos de edad (en salud públic a)
Menos de 60 mgrs/ml
0 a menos de 1 año
Infantil
60 a 89 mgrs/ml
1 a menos de 5 años
Preescolar
90 a 119 mgrs/ml
5 a menos de 15 años
Escolar
120 a 149 mgrs/ml
15 a menos de 25 años
Preproductiva
150 a 179 mgrs/ml
25 a menos de 45 años
Productiva
Más de 160 mgrs/ml
45 a menos de 65 años
Posproductiva Ancianidad
65 y más años
34
Jesús Reynaga Obregón
Diseño d e cuestio narios Introducción La primera etapa del método estadístico, denominada recolección, puede llevarse a cabo a través de diversos procedimientos de medición. En algunas ocasiones las variables se miden con equipamiento instrumental; por ejemplo: la estatura se mide con un escalímetro, el peso con una báscula, la temperatura con un termómetro y la presión arterial con un baumanómetro. En otras ocasiones las variables se miden con la simple observación; por ejemplo: el tipo de actitud que adoptan los pacientes, su manera de caminar o su color de piel solo requieren inspección visual. Algunas veces la medición de variables requiere del interrogatorio; por ejemplo: para saber si un paciente está orientado temporal y espacialmente basta con hacerle una serie de preguntas. En todos los anteriores casos la información obtenida debe ser registrada por escrito para luego proceder a su recuento. Casi siempre, de la calidad del registro escrito depende la calidad de las conclusiones obtenidas luego de aplicar procedimientos estadísticos a las variables medidas. Por convención a los registros escritos sue le denominárseles genéricamente cuestionarios. El diseño de un cuestionario implica que, previamente, se ha realizado una correcta definición de las variables en estudio y que para cada una se ha construido su correspondiente escala en términos de modalidades o intervalos. Si la definición de variables o la construcción de sus escalas son imperfectas, el diseño del cuestionario dará lugar a un defectuoso instrumento de recolección.
1. Comprob ación de r equisitos Al inicio del diseño de un buen cuestionario conviene comprobar los siguientes aspectos: 1. 2. 3. 4.
¿Se tienen a la vista los objetivos del estudio? ¿Está definida la población a quien se aplicará el cuestionario?, ¿Se utilizará una muestra? ¿Se dispone de una lista completa de las variables en estudio? ¿Las escalas que se han construido para cada variable reúnen las condiciones de tener modalidades o intervalos exhaustivos y mutuamente excluyentes? 5. ¿El cuestionario será aplicado por personal entrenado o será de tipo autoadministrado? 6. ¿Se tiene prevista una base de datos para conservar y contar la información? 7. ¿Se han anticipado los procedimientos estadísticos de presentación tabular y gráfica? 8. ¿Se han preseleccionado las medidas de resumen que han de sintetizar a cada variable? 9. ¿Se han previsto las pruebas de análisis estadístico que permitirán identificar diferencias o establecer asociaciones? 10. ¿Se han definido los programas de cómputo para mantener la base de datos y para realizar procedimientos estadísticos?
2. Como recoger las respu estas al cuestio nario Es necesario decidir si el cuestionario será llenado directamente por el respondiente (autoadministrado) o si será aplicado por un entrevistador. En cualquiera de los dos casos debe quedar claro al respondiente cuál es el propósito de la búsqueda de la información y por qué se considera importante que él colabore. Hacer lo anterior convincentemente puede ayudar a aumentar la tasa de respuesta.
35
Jesús Reynaga Obregón
Cuestionarios para entrevistas estructuradas Además de contener preguntas, los cuestionarios para entrevistas cara a cara suelen tener textos que ayudan al entrevistador en la conducción de la entrevista. También pueden agregarse instrucciones al entrevistador o imágenes e ilustraciones que se deban mostrar al entrevistado.
Cuestionarios autoadministr ados Trasladar al respondiente la responsabilidad de completar el cuestionario tiene importantes implicaciones en el diseño del cuestionario. El respondiente se hará cargo de llenar cuidadosamente un cuestionario que considere valioso, interesante, explícito, corto y estéticamente bien presentado. En ocasiones habrá que considerar la conveniencia de ofrecer al respondiente un estímulo o recompensa por su esfuerzo; por ejemplo: conviene ofrecerle un ejemplar del reporte del estudio. En lo posible hay que tratar de usar un lenguaje muy personal, aunque la encuesta sea de tipo anónimo; para lograr lo anterior hay que pensar acerca de cómo le gustaría a uno mismo que se dirigieran por escrito. Cuando sea posible hay que pedir algunos datos personales no confidenciales como el sexo, la edad y la ocupación, ya que se ha observado que con ello se logra establecer un mejor nivel de confianza y un aumento en la tasa de respuesta.
3. Determinació n d e las variables a recoger Aunque parezca que el diseño de un cuestionario podría iniciarse sin considerar los objetivos y variables del estudio, nunca hay que adoptar esta vía. Existe el riesgo de invertir recursos valiosos y abundante tiempo para no lograr recoger los datos fundamentales de la investigación. Para evitar ese riesgo conviene tener a la mano y por escrito la lista de variables que se haya decidido medir. A continuación se muestran ejemplos de la relación entre los asuntos que se desean explorar en un cuestionario y las correspondientes variables con sus respectivas escalas: Asunto
Variable
¿Cuáles son las principales razones que manifiestan los aspirantes para estudiar un curso de posgrado en la facultad de medicina?
Razón principal para estudiar un curso de posgrado
Escala
•
•
•
•
¿La experiencia influye en la decisión de estudiar un curso de posgrado en administración?
Tiempo de actividad laboral en áreas administrativas
• • •
36
Interés científico por un área determinada de la práctica médica Interés por distinguirse académicamente de otros Interés por obtener mejores ingresos Deseo de perfeccionar conocimientos y habilidades en los que existe cierta experiencia
1 a 3 años 4 a 6 años 7 a 9 años
Jesús Reynaga Obregón
4. Disposi ción y secuencia de pregun tas en el cuestion ario Debe procurarse no sobresaturar o recargar el cuestionario con títulos y subtítulos innecesarios o con una numeración excesivamente ramificada. Es una buena práctica asegurarse de que el cuestionario tiene un título sencillo y claro y de que existe un número o fecha de la versión del documento; esto ayuda cuando se está trabajando sobre sucesivas versiones de un borrador. Casi siempre resulta útil redactar una atractiva y muy breve introducción que señale el nombre de la institución que patrocina la aplicación del cuestionario y la importancia de disponer de la información que se solicita. También es una buena práctica numerar las preguntas para propósitos de referencia, particularmente durante las etapas de captura y análisis de las respuestas. Hay que procurar distribuir las preguntas y sus opciones de respuesta de manera estéticamente atractiva. Hay que tratar de ser consistente en el empleo de los términos y limitarse a plantear la menor variedad de tipos de preguntas posible. Se debe procurar que el cuestionario tenga a todo lo largo una orientación semejante, ya sea horizontal o vertical. Si el cuestionario consiste en hoj as engrapadas, hay que procurar imprimir por un solo lado del papel para evitar que el respondiente salte inadvertidamente a preguntas que parecieran no tener secuencia con las anteriores; en todo caso hay que pensar en la conveniencia de imprimir el cuestionario en forma de libro. Cada página debe tener una cantidad semejante de preguntas y debe evitarse la sobresaturación de texto con el afán de ahorrar papel. Hay que reducir al máximo la cantidad de líneas, bordes y recuadros y debe usarse un tamaño de letra fácil de leer para cualquier persona; deben preferirse los tipos de letras sin rasgos excesivos; por ejemplo: es mejor usar letra de tipo Arial que letra de tipo Times New Roman. En caso de que deban imprimirse instrucciones de cada cuando en cuando hay que usar consistentemente un tipo de letra tal como la de tipo cursiva; por ejemplo cada vez que se indica: Marque con una cruz en el recuadro correspondiente a la opción de su preferencia. Si el cuestionario será de tipo autoadministrado, puede empezarse con las preguntas que despierten mayor interés en el respondiente. En otros casos habrá que comenzar con las preguntas más sencillas para pasar luego a las más complejas. En algunas ocasiones habrá que dejar que el respondiente adquiera confianza en el cuestionario antes de empezar a pedirle respuestas de tipo más personal. En cualquier caso hay que agrupar las preguntas de manera lógica agrupando las preguntas de tipo similar en secciones específicas. Es muy conveniente mantener un flujo lógico y sencillo de las preguntas a lo largo del cuestionario evitando, en todo lo posible, ramificaciones excesivas; por ejemplo: cuando se pide al respondiente que, si es hombre pase a la pregunta Y o que si es mujer pase a la pregunta X; en casos como este último es preferible, si los recursos lo permiten, elaborar un cuestionario para los hombres y otro para las mujeres.
5. Tipos d e preguntas En el diseño de un cuestionario se pueden usar diversos tipos de preguntas: abiertas o cerradas, de selección sencilla o de selección múltiple, de asignación de orden o de asignación de valor.
Preguntas abiertas y preguntas cerradas Existen ocasiones en que, por falta de antecedentes o en situaciones inéditas, no hay manera de establecer a priori la escala de alguna variable que se desea medir o que resulta de importancia disponer de respuestas libremente ideadas por el respondiente. En estos casos puede obtenerse valiosa información al hacer preguntas abiertas tales como l a siguiente: ¿Cuál considera que es la principal razón para que los adolescentes pinten con aerosol las fachadas de las casa ajenas?
37
Jesús Reynaga Obregón
Plantear una pregunta como la anterior tiene desventajas y ventajas. Como principal desventaja se encuentra que habrá que destinar b astante tiempo para clasificar la amplia variedad de respuestas que se les ocurran a los respondientes para construir, a posteriori, una escala para la variable involucrada a fin de poder efectuar un recuento preciso. Como ventajas se encuentran que la gama de respuestas puede ser más rica que la que a uno se le pudiera haber ocurrido y que la variedad de respuesta refleja mejor la opinión de los respondientes. En cuanto a la disposición de las preguntas abiertas, conviene reservar suficiente espacio para que se anote sin dificultad la respuesta manuscrita del respondiente y prever un área para su posterior clasificació n y codificación. A continuación se muestran dos ejemplos: Mal ¿Cuál considera que es la principal razón para que los adolescentes pinten con aerosol las fachadas de las casa ajenas? ______________________________ Bien ¿Cuál considera que es la principal razón para que los adolescentes pinten con aerosol las fachadas de las casa ajenas?
En el caso de que para una variable como la anterior solo interese que el respondiente ubique su opinión en una escala preestablecida, podría redactarse la pregunta a modo de pregunta cerrada con o pciones múltiples de la siguiente manera: ¿Cuál considera que es la principal razón para que los adolescentes pinten con aerosol las fachadas de las casa ajenas? (marque con una X en un solo recuadro) Falta de valores cívicos en la familia El ejemplo de otros adolescentes El ejemplo de programas de televisión Debilidad de las autoridades En el caso de establecer una escala con opciones múltiples como la anterior, hay que asegurarse de que es exhaustiva y de que las opciones son mutuamente excluyentes entre sí. Preguntas de selección sencilla y preguntas de selección múlt iple En la modalidad de pregunta cerrada es necesario decidir si se requiere que el respondiente marque una sola opción (selección sencilla) o si conviene que marque todas las que desee (selección múltiple). Observe la diferencia entre una y otra forma:
38
Jesús Reynaga Obregón
Selección Selección sencilla ¿Cuál considera que es las principal razón para que los adolescentes pinten con aerosol las fachadas de las casa ajenas? (marque con una X en un único recuadro) Falta de valores cívicos en la familia El ejemplo de otros adolescentes El ejemplo de programas de televisión Debilidad de las autoridades
Selección Selección múltiple ¿Cuáles considera que son las principales razones para que los adolescentes pinten con aerosol las fachadas de las casa ajenas? (marque con una X en los recuadros que expresen su opinión) Falta de valores cívicos en la familia El ejemplo de otros adolescentes El ejemplo de programas de televisión Debilidad de las autoridades
Preguntas Preguntas de asignación d e orden y de asignación d e valor En algunas ocasiones se hace necesario conocer la importancia que el respondiente concede a algunas opciones de respuesta; en estos casos puede buscarse su opinión pidiéndole que asigne un orden de importancia a las opciones de respuesta o que se ubique en una escala numérica de valores que representen su preferencia. As ig nac ió n d e or den De a las siguientes razones para que los adolescentes pinten con aerosol las fachadas de las casa ajenas un orden de importancia (marque con números del 1 al 4 en los recuadros. El número 1 representará la opción opción que usted considera más importante. No repita números) Falta de valores cívicos en la familia El ejemplo de otros adolescentes El ejemplo de programas de televisión Debilidad de las autoridades
39
Jesús Reynaga Obregón
As ig nac ió n d e valor val or En este tipo de preguntas se utilizan escalas tipo Lickert de la siguiente forma: Otorgue un valor a las siguientes razones para que los adolescentes pinten con aerosol las fachadas de las casa ajenas (marque con una X los recuadros que expresen su opinión) Muy importante
Importante
Poco importante
Nada importante
Falta de valores cívicos en la familia El ejemplo de otros adolescentes El ejemplo de programas de televisión Debilidad de las autoridades
En la anterior escala de importancia puede apreciarse que no se ha incluido una columna que permita asignar un valor neutro como por e jemplo Sin opinión debido opinión debido a la tendencia que tienen muchos respondientes para escoger opciones que no los comprometen.
6. Redacción Redacción del cuestio nario Precisión Se deben hacer preguntas lo más breves y claras posible. Hay que evi tar el uso de abreviaturas. Se debe verificar que la pregunta no se presta a interpretaciones ambiguas; por ejemplo: es mejor p reguntar ¿Ha tenido catarro en los últimos tres meses? que ¿Ha tenido catarro recientemente?
Preguntas Preguntas do bles Algunas preguntas implican dobles cuestiones que deben evitarse; por ejemplo: ¿Cree usted que los adolescentes debieran comer menos y hacer más ejercicio? Para evitar este tipo de preguntas conviene redactar dos preguntas separadas de la siguie nte forma: Marque con una cruz en el recuadro que exprese su opinión Si ¿Cree usted que los adolescentes d ebieran comer menos? ¿Cree usted que los adolescentes debieran hacer más ejercicio?
40
No
Jesús Reynaga Obregón
Preguntas Preguntas negativas negativas Evite preguntas con redacción negativa que suelen causar confusiones como las siguientes: Si
No
Si
No
¿No cree usted que los adolescentes debieran comer menos? ¿Esta usted en desacuerdo con que l os adolescentes debieran hacer más ejercicio? En este caso es mejor redactar así:
¿Cree usted que los adolescentes d ebieran comer menos? ¿Cree usted que los adolescentes debieran hacer más ejercicio?
Exactitud En caso de no existir restricciones, procure pedir respuestas precisas. Por ejemplo, en lugar de preguntar así: Su edad corresponde a: 18 a 24 años 25 a 44 años 45 a 64 años pregunte así: Al 1º. De noviembre de 2004 su edad era de _____ años cumplidos En el ejemplo anterior podría considerarse que era suficiente con obtener la edad en grupos; sin embargo existen varias razones para obtener cifras exactas en lugar de cifras agrupadas: •
•
•
•
Existe menor riesgo de equivocación al anotar un número que al marcar con cruz en algún recuadro Las cifras exactas pueden agruparse a posteriori en posteriori en intervalos del tamaño deseado Mantener las cifras cifras exactas permite actualizar posteriormente la información, información, particularmente las edades, con algún programa de cómputo Ciertos cálculos estadísticos estadísticos y algunos paquetes paquetes de cómputo requieren requieren la información sin agrupar
41
Jesús Reynaga Obregón
Preguntas con respuestas sugeridas
Hay que evitar forzar al respondiente a contestar en contra de su vol untad con preguntas como la siguiente: ¿Esta usted de acuerdo, al igual que la gran mayoría de los buenos profesores, en que los estudiantes destinan cada vez menos tiempo a la preparación de sus exámenes? Si No
Igualmente, hay que procurar ser cuidadoso al pedir opiniones situando al respondiente en situaciones hipotéticas sumamente irreales o pidiéndole que marque opciones extremadamente polarizadas Por ejemplo, en vez de redactar así: Si usted fuera el director de la facultad de medicina ¿reduciría la duración de los estudios a solo 3 años? Si
No
Es mejor redactar así: Seguramente si Si usted formara parte de una comisión revisora del plan de estudios de la facultad de medicina ¿propondría reducir la duración de los estudios a 3 años?
42
Probablemente si
Probablemente no
Seguramente no
Jesús Reynaga Obregón
7. Aspectos complementarios al diseño As pec to s ét ic os Nunca deben hacerse preguntas ofensivas o embarazosas. Hay que evitar que el respondiente pierda tiempo con preguntas innecesarias que no corresponden a ninguna variable del estudio. Las preguntas delicadas deben hacerse una vez que el respondiente haya resuelto las preguntas generales; por ejemplo: Finalmente, para poner en contexto sus respuestas nos permitimos pedirle que sea tan amable en contestar lo siguiente: ¿Cuál es su estado civil? (marque con una cruz) Soltero Casado Viudo Divorciado Unión libre Al inicio del cuestionario conviene asegurar al respondiente la confidencialidad de sus respuestas anotando un párrafo semejante al siguiente: Le aseguramos que sus respuestas serán tratadas de manera respetuosa y serán utilizadas solo con propósitos de investigación. Sus datos no serán facilitados a ninguna otra institución de cualquier naturaleza de acuerdo a lo establecido por la actual legislación de derechos humanos. Muchas gracias por su participación en este estudio.
Prueba piloto Por más que parezca perfecto un cuestionario siempre requiere probarse por anticipado, particularmente en lo referente a los siguientes aspectos: •
•
•
Legibilidad del documento, tamaño y color del papel y de la letra, formato (hojas engrapadas o cuadernillo). Identificación del cuestionario (numeración consecutiva, número o fecha de versión). Tiempo para el llenado Facilidades para el llenado (material de escritura, instructivos anexos, auxilio de un entrevistador, etc.)
•
Forma de aplicación (autoadministración, entrevista)
•
Ambiente de aplicación (individual o en grupos de respondientes)
•
Facilidad de captura de las respuestas (implica el diseño y prueba de la base de datos correspondiente)
43
Jesús Reynaga Obregón
El recuento com o segunda etapa del método estadísti co Introducción: En esta etapa del método estadístico la información recogida es sometida a revisión, clasificación y cómputo numérico. A veces el recuento puede realizarse de manera muy simple, por ejemplo con tarjetas en las que se anotan datos en el centro de sus bordes y en sus esquinas; en otros casos puede requerirse el empleo programas de cómputo para el manejo de bases de datos. En términos generales puede decirse que el recuento consiste en la cuantificación de la frecuencia conque aparecen las diversas características medidas en los elementos en estudio; por ejemplo: el número de personas de sexo femenino y el de personas de sexo masculino o el número de niños con peso menor a 3 kilos y el número de niños con peso igual o mayor a dicha cifra.
Recuento po r medio de tarjetas si mples: Este sistema de recuento consiste en transcribir los valores y modalidades de las variables estudiadas que se encuentran registradas en los formularios en tarjetas de cartulina (usualmente de 12.5 cms. X 7.5 cms.) y, a partir de éstas, efectuar el cómputo. Para esto se requiere que los valores o modalidades tengan asignado un código, preferentemente desde el asentamiento de los datos hecho en el instrumento en que se hayan recogido. Dichos códigos serán transcritos a la tarjeta de cartulina en los sitios establecidos para ello a partir de una tarjeta modelo o matriz; por tanto, cada formulario da lugar a una tarjeta que contendrá la misma información ya codificada. Ejemplo: Obsérvese el siguiente instrumento de recolección ya contestado y los códigos asignados a los valores de las diferentes modalidades o clases: INSTRUMENTO DE RECOLECCION 1
Alum no No.
2
Preparatoria de origen
19
Privada CCH UNAM Bachilleres
3
Califi cació n 1er. examen
Calificación 2o. examen
Vocacional IPN
(VI)
No presento
(NP)
No aprobado
(NA)
Suficiente
(S)
No presento
Sexo
(MB) (NP) (NA)
Suficiente
(S)
B
(B)
Muy bien
(MB)
Femenino
(F)
Masculino
(M)
44
S
(B)
No aprobado Bien 5
(C) (U)
Muy bien
B
(B)
Prepa UNAM
Bien 4
(P)
M
Jesús Reynaga Obregón
6
7
Edad
17 - 21 años
Otras ocupacion es
22 - 26 años
(2)
27 y más
(3)
Otra carrera Trabaja Solo esta carrera
8
9
Hrs. de estudio en casa
Lugar de estudio
2
(1)
S
(C) (T) (S)
0 - 1 horas
(1)
2 - 3 horas
(2)
4 o más horas
(3)
Biblioteca
(B)
Casa propia
(P)
Casa de amigos
(A)
Otros lugares
(O)
1
P
Obsérvese la tarjeta a que da lugar el anterior formulario:
B
S
B
P
19
M
1
S
2
Como puede verse, se han ocupado el centro, las esquinas y las partes medias de cada borde de la tarjeta para anotar los códigos contenidos en el formulario. Los sitios donde se anota cada código se determinan previamente mediante la elaboración de una tarjeta modelo. En el ejemplo citado, la tarjeta modelo fue elaborada con el siguiente formato: TARJETA MODELO Prepa de
Calificación
Calificación
origen
1er. examen
2o. examen
Lugar de estudio
Tiempo de estudio
Número del
Sexo
alumno
Otra ocupación
Edad
Para proceder al cómputo, simplemente se separan las tarjetas en paquetes diferentes, de acuerdo a las diversas modalidades o clases de una variable, y se cuentan las tarjetas resultantes.
45
Jesús Reynaga Obregón
Por ejemplo, si se deseara contar a los individuos según su escuela de origen se procedería A separar las tarjetas formando paquetes de la siguiente manera:
P
C
B
P
C
B
P
C
B C
P
B B
P
B
P
B B
U
VI U
VI U
VI U U U U
En caso necesario, cuando se desea realizar el cómputo de individuos clasificados bajo dos criterios, se procede a una nueva separación de los grupos de tarjetas resultantes de la primera clasificación para proceder a su cómputo. Por ejemplo, para el caso que está sirviendo de ilustración, si se deseara conocer cuántos de los individuos que proceden del Colegio de Ciencias y Humanidades son hombres y cuántas son mujeres (esto es: si se deseará conocer a los individuos según escuela de origen y sexo simultáneamente) se procedería según el siguiente esquema: C C C C
C
C C C
F
M
El sistema de recuento por medio de tarjetas simples es útil para contar con comodidad hasta 500 casos, siempre y cuando cada caso contenga a lo sumo ocho variables.
46
Jesús Reynaga Obregón
Recuento po r medio de un pro grama de computadora (Excel): El programa Excel de Microsoft permite contar y mantener archivados los datos correspondientes a un máximo de 65,535 casos en qui enes se hayan medido hasta 256 variables. Para utilizar este programa como un sistema de recuento eficiente es indispensable que se respeten las siguientes normas: •
la primera fila de una hoja de cálculo debe destinarse a la anotación de los nombres de las variables medidas, preferentemente con no más de ocho caracteres,
•
cada una de las siguientes filas deben corresponder a cada uno de los casos,
•
no debe dejarse ninguna fila en blanco,
•
las filas no deben contener ningún tipo de letrero o dibujo,
•
cada columna debe destinarse a la anotación de los datos correspondientes a cada caso.
Una vez capturados todos los datos y salvado el archivo se procede de acuerdo a los siguientes pasos: 1. Definir el área que contiene los datos y asignarle un nombre •
Colóquese en la celdilla que está en la esquina superior izquierda del área de datos, oprima con su mano izquierda la tecla de mayúsculas
y, sin soltarla, oprima repetidas veces la
tecla del cursor derecho hasta que aparezcan sombreadas las celdi llas A1, B1 y C1. Estas celdillas contienen los encabezados de las columnas. •
Todavía sin soltar con su mano izquierda la tecla de mayúsculas, oprima una vez la tecla Fin e inmediatamente la tecla del cursor inferior . Observe que aparece sombreada toda el
47
Jesús Reynaga Obregón
área que contiene a los d atos. Ahora puede soltar la tecla de mayúsculas. •
Asegúrese de que está sombreada el área de datos. Con el puntero del ratón oprima una vez la flecha que está al lado derecho de la ventana Cuadro d e nombres. Observe que el letrero A1 de la ventana se sombrea con color azul. En este momento puede sobreescribir un nombre. Por ejemplo escriba con minúsculas la palabra misdatos. Oprima la tecla
2. Ordenar los datos según el contenido de alguna columna •
Asegúrese de que está sombreada el área de datos. Con el puntero del ratón despliegue el menú Datos y seleccione la opción Ordenar . Al aparecer un cuadro denominado Ordenar , que contiene tres ventanas y algunos botones, oprima la flecha que está al lado derecho de la ventana superior y escoja el nombre de alguna de las columnas. En este caso escoja la columna Sexo (columna B). Oprima el botón Aceptar . Observe que ahora la columna Sexo muestra a los datos ordenados. Primero aparecen letras f y luego se muestran letras m. Para ordenar los datos según el contenido de alguna otra columna asegúrese de que primero está sombreada toda el área de datos. Practique el ordenamiento de cada una de las otras columnas
48
Jesús Reynaga Obregón
3. Contar los subto tales de una columna (en este caso la columna sexo) •
•
Asegúrese de que tiene ordenados los casos según la columna sexo. Vaya al menú Datos y escoja la opción Subtotales. Observe que aparece un cuadro ll amado Subtotales que contiene tres ventanas y algunos botones. Oprima la flecha del lado derecho de la ventana superior denominada Para cada cambio en: y escoja la columna sexo. En la ventana de en medio, denominada Usar función: deje la opción Contar . En la ventana inferior, denominada Agregar subtotal a: marque la columna sexo; asegúrese de que las demás columnas no están marcadas. Oprima el botón Aceptar .
En este momento, si usted recorre de arriba a abajo la columna sexo, notará que al terminar las letras f se encuentra un subtotal y que al terminar las letras m se encuentra, tanto el subtotal para la letras m, como el total de todos los casos.
49
Jesús Reynaga Obregón
Antes de efectuar otro recuento de subtotales es necesario realizar lo siguiente: vaya al menú Datos y seleccione la opción Subtotales. Al aparecer el cuadro Subtotales quite las marcas de cualquier columna que estuviera marcada en la ventana inferior denominada Agregar subtotal a: y después oprima el botón Quitar todos. 4. Ordenar los datos según dos columnas y contar los subtotales •
•
Asegúrese de que quitó los subtotales anteriormente utilizados. En la ventana Cuadro de nombres seleccione el nombre de toda el área de datos para que quede sombreada en este caso escogiendo el nombre antes asignado: misdatos). Enseguida vaya al menú Datos y escoja la opción Ordenar. Al aparecer el cuadro denominado Ordenar escoja en la ventana superior, llamada Ordenar por , la columna sexo y en la ventana de en medio, denominada Luego por , la columna apgar . Oprima la tecla
Observe que en la columna sexo se han ordenado los datos y que hay un segmento de letras f y luego uno de letras m. Observe que tanto para el segmento de letras f como para el segmento de l etras m se
50
Jesús Reynaga Obregón
encuentran ordenados los datos de la columna apgar apareciendo primero los valores menores de cada segmento de la columna sexo.
•
Ahora vaya al menú Datos y escoja la opción Subtotales. Al aparecer el cuadro Subtotales realice lo siguiente: Primero. En la ventana Por cada cambio en: seleccione la columna apgar . Segundo. En la ventana Agregar subtotal a: marque la columna apgar Tercero. Oprima la tecla Recorra las columnas sexo y apgar y tome nota de los subtotales.
5. Concentrar los subtot ales en una tabla de conting encia para dos variables Elabore una tabla como la que se muestra a continuación y anote los resultados del recuento. Discuta los resultados observados en la tabla.
51
Jesús Reynaga Obregón
Ap gar Sexo
6
7
8
9
Femenino
1
1
3
3
Masculin o
1
1
2
1
Como puede observarse hubo más mujeres que tuvieron valores de Apgar 9.
Ejercicios: En las siguientes páginas encontrará un listado con los datos de 120 personas que asistieron a una comida. En el evento se ofrecieron tres ali mentos: sopa, arroz y mole. Los invitados pudieron o no haber comido uno, dos o tres de los alimentos. El mismo día algun as personas presentaron diarrea. Luego de efectuar el recuento de la información, tanto con el procedimiento de tarjetas simples como con el uso del programa Excel llene los siguientes cuadros:
Ingestión de sopa
Cuadro 1 Presentación de diarrea No Si
Totales
Cuadro 2 Presentación de diarrea No Si
Totales
Cuadro 3 Presentación de diarrea No Si
Totales
No
Si
Ingestión De arroz No
Si
Ingestión de mole No
Si
52
Jesús Reynaga Obregón
Caso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
Sopa S N S S S N S S S N S S N S S N S S S S S S S S S N S N S S N S S S S S N S S
Ar roz N S N N N S S S N S S S S S N N S S N N N N N N S N N S S S S N N N S S N N N
53
Mole N N N S N S N S S S N N N N S S N N S S N N S S S N S N N S N S S S N N N N S
Diarrea S N N S S N S S N S S S N S S N S S S S S S S S S S S N S S N S S S S S N N N
Jesús Reynaga Obregón
Caso 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79
Sopa S N N S N N S N S S N N N N S N N S S N S S N S S S N S S S N S S N S S N S S S
Ar roz S N S S N N N S N S S N S N S N N S N N S N S N N N S S S N S S S S N N N S S N
54
Mole N S N N N N S N S N N N N S N S N S S N S N N N S N S N S S S N N N N S S N N S
Diarrea S N N S N N N N S N N N N N S N N N S N N S S N S S N S S N N S S N S S N S S S
Jesús Reynaga Obregón
Caso 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120
Sopa S S S S S N N S N S S N S S S S S S S S S N N S N N S N S S S N S N S N S S S N S
Ar roz N N S N N S N N S S S S N N N S S N N N S N S S N N S S N S S N N N S N N S N N S
55
Mole S N N S S S N S N N S N S S S N N N N S N S S N S N S N S S N N S S N S S S S N S
Diarrea S S S S S N S S N S S N S S S S S N N N S N N S N N N S S S N N S N S N S N S N N
Jesús Reynaga Obregón
Soluciones a los ejercicio s: Tanto con el procedimiento de tarjetas simples como con el uso del programa Excel, sus resultados deben ser como los siguientes:
Ingestión de sopa
Cuadro 1 Presentación de diarrea No Si
Totales
No
34
5
39
Si
17
64
81 120
Ingestión De arroz
Cuadro 2 Presentación de diarrea No Si
Totales
No
28
36
64
Si
23
33
56 120
Ingestión de mole
Cuadro 3 Presentación de diarrea No Si
Totales
No
27
36
63
Si
24
33
57 120
56
Jesús Reynaga Obregón
La presentación estadístic a como t ercera etapa del método estadístico: c uadros y gráficos
Introducción En el método estadístico, luego de las etapas de recolección y de recuento, se desarrolla la etapa denominada presentación. En ella se elaboran y describen los datos de los estudios o investigaciones a través de cuadros y gráficos con el propósito de comprender su estructura, organización y tendencias. A través de los siguientes ejemplos se podrá apreciar la importancia de esta etapa. Supóngase que se lee o se escucha la siguiente descripción: De 120 trabajadores de una fábrica de gabinetes metálicos que fueron seguidos a lo largo de la década 1981-1990, en la población de San Garabato, 81 estaban expuestos regularmente a ruido intenso; de estos, casi tres cuartas partes presentaron diversos grados de sordera al cabo del período de observación. Por otra parte, de 39 trabajadores que solo se exponían esporádicamente al ruido, la gran mayoría casi no presentaban manifestaciones de sordera al final del período de o bservación.. Salvo pocas excepciones, la gran mayoría de las personas no logra captar de primera intención la magnitud de las cifras y el modo en que se distribuyen las variables a las que se está haciendo referencia. Es casi seguro que una importante proporción de las personas tendrá que releer la descripción dos o más veces para emitir una opinión respecto a la información leída o escuchada. En cambio, al disponer de un cuadro en el que se presenta dicha información, la comprensión de los datos es casi automática y las magnitudes numéricas se comparan de manera sumamente ágil. Obsérvese el efecto que se logra con la presentación tabular de la información:
Trabajadores de una fábrica de gabinetes metálicos según exposición al ruido y presencia de sordera San Garabato 1981-1990
Presencia Exposición al ruid o Regu lar
Espo rád ica
de sord era Totales
SI 60
(74%)
7 (18%)
NO 21 (26%)
81 (100%)
32 (82%)
39 (100%)
Si bien los cuadros permiten efectuar comparaciones precisas de tipo numérico, también se hace necesario disponer de una forma de presentación que facilite la revisión visual rápida de las características esenciales de los datos. Obsérvese cómo el gráfico que corresponde a la tabla anterior propicia una fácil comprensión de la información con la sola inspección visual:
57
Jesús Reynaga Obregón
Trabajadores de una fábrica de gabinetes metálicos según exposición al ruid o y presencia d e sor dera,San Garabato, 1981-1990 Sordera
%
Si 100 No 75
50 25
Regular
Esporádica
Exposición al ruido
Características básicas d e los cuadros Como ya se dijo antes, el principal propósito de la etapa de presentación es facilitar la comprensión rápida y práctica de la información recién contada. Por lo anterior, tanto la elaboración de cuadros como la elaboración de gráficos debe cumplir con normas mínimas que promuevan la facilidad en la descripción de la información en ellos contenida. En el caso de los cuadros pueden mencionarse como normas mínimas las siguientes: •
•
•
•
Cada cuadro debe tener un título completo que responda a las preguntas ¿Qué se está presentando?, ¿Cómo se está presentando?, ¿De donde provienen los datos? y ¿De cuándo son los datos? Las variables deben tener un nombre exacto que esté acorde con la escala de clases o modalidades que se hayan definido para dichas variables. La escala de cada variable debe tener modalidades o clases que sean exhaustivas y mutuamente excluyentes. En vista de que los cuadros tienen por propósito presentar las características numéricas de los datos, los cálculos deben ser exactos. Al um no s d el Do ct or ado en Cienc ias Bi om édi cas seg ún sex o, UNAM, Generaciones 1997-2 a 1999-2 Columna con el nombre de la variable y su escala de modalidades
Sexo
Núm.
%
Femenin o
199
53.6
Masculin o
172
46.4
Total es
371
100.0
Columna de frecuencias absolutas 58
Columna de frecuencias relativas
Jesús Reynaga Obregón
Características b ásicas de los gráficos En el caso de los gráficos pueden mencionarse como normas mínimas las siguientes: •
Cada gráfico debe tener un título completo que responda a las preguntas ¿Qué se está presentando?, ¿Cómo se está presentando?, ¿De donde provienen los datos? y ¿De cuándo son los datos?
•
•
•
Para no distorsionar la apreciación visual de las variables que se estén presentando, la relación entre el eje vertical (ordenada) y el eje horizontal (abscisa) de los gráficos debe ser de 1 a 1.5; por ejemplo: si la ordenada mide 3 centímetros, la abscisa medirá 4.5 La escala de cada variable debe tener modalidades o clases que sean exhaustivas y mutuamente excluyentes. En vista de que los gráficos tienen por propósito agilizar la captación visual de las características esenciales de los datos sin distorsiones de ningún tipo, debe evitarse el uso de colores o de efectos tridimensionales de volumen. Escolares según estado de higiene oral, Primaria Republica de Bolivia, 1999
1600
1200
800
400
0
Muy bueno
Bueno
Regular
Malo
Muy malo
Estado de higiene oral
Se considera que el arsenal mínimo que se debe poseer en cuanto a capacidades para la elaboración de cuadros y gráficos debe permitir la presentación de: 1. 2. 3. 4. 5.
Una sola variable cualitativa nominal u ordinal Una sol a variable cuant itativa dis creta Una sola variable cuantitativa contin ua Dos variables cualitativas simultáneamente (nominales u ordinales) Dos variables cuantitativas contin uas simultáneamente (discretas o continuas) 6. Una variable cualit ativa y una cuant itativa disc reta simu ltáneamente 7. Una variable cualitativa y una cuantitativa continua simultáneamente En las siguientes páginas se encuentran modelos para cada caso. En cada uno se aprecian las características técnicas que deben tomarse en cuenta para su construcción.
59
Jesús Reynaga Obregón
Presentación de una s ola variable cualitativa (nominal u ordinal): Barras sim ples Escolares según estado de higi ene oral Primaria República del Salvador 1995 Núm.
700 600 500 400 300 200 100 0 Excelente
Bueno
Regular
Malo
Pésimo
Estado de Higiene Oral
Presentación de una sola variable cuantitativa discreta: Histograma
Pacientes epilépticos según número de convulsiones diarias Hospital Francés 1992 Núm.
14 12 10 8 6 4 2 0 1a3
4a6
7a9
10 a 12
Número de convulsiones diarias
60
Jesús Reynaga Obregón
Presentación de una s ola variable cuantitativa continua: Polígono d e frecuencias Alumnos Según porcentaje de aciertos Examen final de anatomía 1992 No. 700
1er paso: Trazado de histograma provisional Trazado de uniones entre centros de clase
600 500 400 300 200 100 0
0 a 20
21 a 40
41 a 60
61 a
81 a 100
Porcentaje de Aciertos
Alumnos Según porcentaje de aciertos Examen final de anatomía 1992 No.
2o. paso Eliminación de barras subyacentes (VERSION FINAL)
700 600 500 400 300 200 100 0
0 a 20
21 a 40
41 a 60
61 a 80
Porcentaje de Aciertos
61
81 a 100
Jesús Reynaga Obregón
Presentación simultánea de dos variables cualitativas: Barras segmentadas
Invitados a la boda Según ingestión de mole y presencia de diarrea San Garabato 1991
% 100
80
Diarrea
60
No Si
40
20
0 SI
NO
Ingestión de mole
Presentación simultánea de dos variables cuantitativas cuantitativas: Diagrama de correlación Recién nacido s según peso y tall a, Hosp ital Santa María, 53
52
51
Talla
50
49
48
47
46 2500
2700
2900
3100
3300
Peso
62
3500
3700
Jesús Reynaga Obregón
Presentación simultánea de una variable cualitativa y de una c uantitativa discreta: Histogramas apareados Población según sexo y edad en años, San Miguel, 2003 65 y más 45 a 64 25 a 44 Mujeres
15 a 24
Hombres
5 a 14 1a4 menos de1 0
2000
4000
6000
8000
10000
12000
Presentación simultánea de una variable cualitativa y de una cuantitativa continu a: Polígonos de frecuencias superpuestos
Recién nacidos según s exo y peso, Hospit al DEF, 1990 180 160 140 120 100
Hombres Mujeres
80 60 40 20 0 2499
2999
3499
63
3999
4499
Jesús Reynaga Obregón
Ejercicio s: identificación de errores en la constr ucción de cuadros Compare los cuadros con error es con los cuadros correctos e identifique las d iferencias
Estado Civil Solteros
Estado Civil Hospital Francés 1992 Número
%
46
22.2
Casados
84
40.6
Viudos
25
12.1
Divorciados
16
7.7
Unión Libre
36
17.4
Pareja
14
6.8
Total
407
100.0
Trabajadores según estado civil, Hospital Francés, 1992 Estado Civil
Número
%
Solteros
46
22.2
Casados
84
40.6
Viudos
25
12.1
Divorciados
16
7.7
Unión Libre
36
17.4
207
100.0
Total
64
X
Jesús Reynaga Obregón
Pacientes atendidos en Urgencias según tipo de cirugía, Hospital Francés, 2002
Tipo de Paciente
Número
%
Radical
226
23.3
Conservadora
452
66.7
Total
678
100.0
Pacientes atendidos en Urgencias según tipo de cirugía, Hospital Francés, 2002 Tipo de cirugía
Número
%
Radical
226
33.3
Conservadora
452
66.7
Total
678
100.0
65
X
Jesús Reynaga Obregón
Escolares según estado de higiene oral Estado de higiene oral
Número
Excelente
%
38
2.75
Bueno
124
8.96
Regular
246
17.77
Malo
356
25.72
Pésimo
620
44.80
1,384
100.0
Total
Escolares según estado de higiene oral, primaria Benito Juárez, 2002 Estado de higiene oral
Número
Excelente
%
38
2.75
Bueno
124
8.96
Regular
246
17.77
Malo
356
25.72
Pésimo
620
44.80
1,384
100.0
Total
66
X
Jesús Reynaga Obregón
Alumnos según calificación en examen final, Materia de Anatomía, 2002
Calificación
Número
%
MB
12
13.3
B
32
35.6
S
14
15.6
NA
8
8.9
NP
2
2.2
Pésimo
22
24.4
Alumnos según resultado del curso, Materia de Anatomía, 2002 Calificación
Número
%
MB
12
17.6
B
32
47.1
S
14
20.6
NA
8
11.8
NP
2
2.9
Total
68
100.0
67
X
Jesús Reynaga Obregón
Pacientes epilépticos según número de convulsiones diarias, Hospital Francés, 1998
Estado Civil
Número
%
1 a 3
6
21.4
4 a 6
14
50.0
6 a 10
5
17.9
10 a 12
3
10.7
Total
38
100.0
Pacientes epilépticos según número de convulsiones diarias, Hospital Francés, 1998
Convulsiones diarias
Número
%
1 a 3
6
21.4
4 a 6
14
50.0
7 a 9
5
17.9
10 a 12
3
10.7
Total
28
100.0
68
X
Jesús Reynaga Obregón
Viviendas según número de habitaciones Colonia Rosedal Número de hijos
Número de familias
%
1a2
232
29.5
3a4
452
57.5
4a6
78
9.9
7a8
24
13.1
Total
100.0
Familias según número de hijos Colonia Rosedal, 2002 Número de hijos
Número de familias
%
1a2
232
29.5
3a4
452
57.5
5a6
78
9.9
7a8
24
3.1
Total
786
100.0
69
X
Jesús Reynaga Obregón
Alumnos según número de aciertos, materia de anatomía
Sexo
Número de alumnos
%
0 a 10
38
2.75
11 a 20
124
8.96
21 a 30
246
17.77
31 a 40
356
25.72
41 a
620
50
Total
1,384
100.00
Alumnos según número de aciertos, materia de anatomía, 2003 Número de aciertos
Número de alumnos
%
0 a 10
38
2.75
11 a 20
124
8.96
21 a 30
246
17.77
31 a 40
356
25.72
41 a
620
44.80
1,384
100.00
Total
50
70
X
Jesús Reynaga Obregón
Alumnos según porcentaje de aciertos, 2003 Número de aciertos
Número de alumnos
%
0 a 20
38
42.75
21 a 40
124
8.96
41 a 60
246
17.77
61 a 80
356
25.72
81 a 100
620
44.80
1,384
100.00
Total
Alumnos según porcentaje de aciertos, materia de anatomía, 2003 Porcentaje de aciertos
Número de alumnos
%
0 a 20
38
2.75
21 a 40
124
8.96
41 a 60
246
17.77
61 a 80
356
25.72
81 a 100
620
44.80
1,384
100.00
Total
71
X
Jesús Reynaga Obregón
La síntesis estadística como cuarta etapa del método estadístico . Medidas de resumen para variables cualitativas. Razones, pro porci ones y tasas. Introducción La cuarta etapa del método estadístico se denomina síntesis ; en ella se realizan procedimientos de cálculo numérico que producen cifras o medidas que condensan o resumen en sí mismas una gran cantidad de información. La condensación numérica de los datos da lugar a medidas que, debidamente analizadas y entendidas, permiten evocar o imaginar las características fundamentales de toda la información que dio origen a dichas medidas. La ventaja principal del cálculo de las medidas de resumen consiste en que a través de ellas se facilita la comunicación de las peculiaridades esenciales de grandes volúmenes de datos. Por ejemplo: si una persona se quisiera informar acerca de las enfermedades que dieron origen a los fallecimientos ocurridos en una ciudad podría efectuar una lectura de todos y cada uno de los certificados de defunción de las personas fallecidas; sin embargo, luego de la lectura de 40 o 50 certificados, ya habría perdido el interés por la información o quizá ya habría caído en una total confusión al tratar de recordar la causa que condujo a la muerte a cada uno de los difuntos. En cambio, si se hubieran calculado las medidas de resumen llamadas tasas para las cinco primeras causas de muerte y esta información estuviera disponible, tales medidas de resumen permitirían imaginar las características básicas de la mortalidad en la ciudad de referencia. En el caso de las variables de tipo cualitativo la condensación de la información suele hacerse con alguna de las siguientes tres medidas de resumen de uso frecuente:
• • •
Razones Proporciones Tasas
RAZONES Definición: Una razón es una medida de resumen para variables cualitativas que consiste en la comparación, a través de una división, entre dos conjuntos.
Razón: comparación a través de cociente entre dos conjuntos
Ejemplo: Se desea condensar la siguiente información: en un hospital rural existen 18 residentes que se encargan de la atención de 126 pacientes; por otra parte, en un hospital urbano existen 8 residentes que se encargan de atender a 32 pacientes.
72
Jesús Reynaga Obregón
Procedimiento: de acuerdo a la definición de razón deben dividirse dos grupos de elementos. En este caso, para el hospital rural se divide el número de pacientes entre el número de residentes: Razón
pacientes residentes
en hospital rural
=
126 18
7
=
En cuanto al hospital urbano, se divide también el número de pacientes entre el número de residentes de dicho hospital: Razón
pacientes en hospital urbano residentes
=
32 8
=
4
Interpretación: Para el caso del hospital rural: Existen siete pacientes a atender por cada residente. Para el caso del hospital urbano: Existen cuatro pacientes a atender por cada residente. En conclusión: parece haber mayor cantidad de trabajo para los residentes del hospital rural.
PROPORCIONES Definición: Una proporción es una medida de resumen para variables cualitativas que consiste en la comparación, a través de una división, entre un subconjunto y el conjunto al que pertenece.
Proporción: comparación a través de cociente entre un subconjunto y el conjunto al cual pertenece
Ejemplo: Se desea condensar la información siguiente: en un país subdesarrollado ocurrieron 422,350 defunciones en total; de ellas 124,352 pertenecieron a niños que aún no cumplían el año de edad. Por otra parte, en un país industrializado ocurrieron un total de 1' 721,215 defunciones de las cuales 206,876 se presentaron en niños menores de un año de edad. Procedimiento: de acuerdo a la definición de proporción deben dividirse un subconjunto entre el conjunto al que pertenece. Asi, para el país subdesarrollado: proporcióndemuertesdemenoresdeunañoenpaíssubdesarrollado
124,352
=
73
=
422,350
0.29
Jesús Reynaga Obregón
Por otra parte, para el país industrializado: proporcióndemuertesdemenoresdeunañoenpaísindustrializado
206,876
=
=
0.12
1'721,215 Interpretación: Para el caso del país subdesarrollado: La importancia del subconjunto de muertes de menores de un año, en relación con el conjunto total de muertes en el país es de 0.29, lo que equivale a casi la tercera parte de todas las defunciones. Para el caso del país industrializado: La importancia del subconjunto de muertes de menores de un año, en relación con el conjunto total de muertes en el país es de 0.12, lo que equivale a aproximadamente una octava parte de todas la defunciones. En conclusión: la importancia de las defunciones de niños menores de un año es mucho mayor en el país subdesarrollado que en el país industrializado. Nota: Conviene mencionar que, en ocasiones, las proporciones son multiplicadas por el número 100 y con ello se habla de los porcentajes. Así, para el ejemplo, podría haberse hablado de que los porcentajes de defunciones de menores de un año en el país subdesarrollado y en el país industrializado eran de 29% y de 12%, respectivamente.
TASAS Definición: Una tasa es una medida de resumen para variables cualitativas que consiste en la comparación, a través de una división, entre el número de veces que ocurre un cierto tipo de eventos y la población en la que puede ocurrir dicho tipo de eventos. Usualmente el resultado de tal división consiste en una cifra fraccionaria menor a uno; por ello, el resultado de la división suele ser multiplicado por alguna constante que sea múltiplo del número 10.
Tasa: comparación a través de cociente entre un conjunto de eventos y la población en la que pueden ocurrir tales eventos
Ejemplo: En una ciudad, a lo largo del año 1991, ocurrieron 345 defunciones por cáncer de próstata. Dicha ciudad tenía una población total de 2' 453, 310 habitantes. De ellos, 1' 210, 425 eran del sexo masculino. Se desea condensar la información de tal manera que los cálculos produzcan una medida de resumen que permita imaginar o evocar la magnitud del riesgo que existe para los habitantes de tal ciudad de fallecer por cáncer de próstata. Procedimiento: de acuerdo a la definición de tasa debe dividirse el evento entre la población en la cual dicho evento puede ocurrir. El resultado debe multiplicarse por un múltiplo del número 10. tasa de defunciones por cáncer de próstata=
345 X 100,000 1210 , ,425
74
=
28.50 29 ≈
Jesús Reynaga Obregón
Interpretación: En la ciudad estudiada, a lo largo del año de referencia, fallecieron 29 de cada 100,000 habitantes del sexo masculino por cáncer de próstata. Notas: En primer lugar obsérvese que la división del número de eventos, en este caso las defunciones por cáncer de próstata, fue efectuada entre el número de habitantes del sexo masculino y no entre el total de la población, ya que solo los hombres pueden padecer tal patología. En segundo lugar nótese que la constante utilizada para multiplicar el resultado de la división anterior fue el número 100,000. Tal cifra fue escogida porque con ella se obtiene un resultado final que incluye uno o dos dígitos enteros (es usual que las tasas de mortalidad específica tengan como constante para multiplicar el resultado de la división al número 100,000) En tercer lugar conviene destacar la importancia del uso de tasas para condensar información de tipo cualitativo. Supóngase que interesa comparar la mortalidad por enfermedades del corazón entre los jóvenes de 15 a 24 años edad y los ancianos de 65 a 74 años y que se utilizan los siguientes datos:
Grupo poblacional
Defunciones por enfermedades del corazón
Total de defunciones por todas las causas
Jóvenes Anc ian os
12, 763 11,425
48,999 306,025
Proporción de defunciones por enfermedades del corazón en relación con las defunciones por todas las causas .26 .04
Si se optara por comparar las proporciones de defunciones por enfermedades del corazón de ambos grupos poblacionales podría quedar la impresión de que las enfermedades del corazón son un problema mucho más grave en el grupo de jóvenes que en el de ancianos; esta falsa imagen se produce porque no se está tomando en cuenta la cantidad de personas que componen a cada grupo poblacional; es decir, no se está tomando en consideración el volumen de las poblaciones en que pueden ocurrir ese tipo de eventos. En cambio obsérvese lo que ocurre cuando se usan los siguientes datos, necesarios para el cálculo de tasas: Grupo Poblacional
Número de habitantes que forman el grupo poblacional
Tasa de defunciones por enfermedades del corazón
Jóvenes
Defunciones por enfermedades del corazón 12, 763
23' 900, 749
Anc ian os
11,425
6' 368, 450
53.4 defunciones por cada 100,000 habitantes de ese grupo 179.4 defunciones por cada 100,000 habitantes de ese grupo
Con los últimos resultados ya se puede efectuar una comparación correcta al decir que por cada 100,000 jóvenes solo fallecen 53.4 de ellos por enfermedades del corazón; en cambio por cada 100,000 ancianos fallecen 179.4 por la misma causa. Lo anterior significa que tales padecimientos constituyen un riesgo mucho más importante como causa de mortalidad en el grupo de ancianos que en el grupo de jóvenes. En cuarto lugar , aunque las tasas son calculadas con datos que pertenecen a periodos ya concluidos, se considera que tales tasas sirven para anticipar la probabilidad o el riesgo de ocurrencia de un evento en una población para periodos inmediatos a aquel para el que se efectuaron los cálculos.
75
Jesús Reynaga Obregón
PROBLEMAS 1. En un distrito escolar urbano se encontró que existía una población escolar a nivel primaria de 123,456 niños. Para uso de tales niños se encontraron disponibles 1,380 sanitarios y 820 bebederos de agua. Por otra parte, en un distrito escolar rural, se encontró una población escolar de primaria de 34,244 niños. En las escuelas de dicho distrito se encontraron 179 sanitarios y 54 bebederos de agua. Con la información anterior calcule e interprete las siguientes razones para los dos distritos escolares: razón niños por cada sanitario razón niños p or cada bebedero 2. En un país en desarrollo ocurrieron 432,614 defunciones a lo largo de un año. De tales defunciones las correspondientes a niños menores de un año fueron 125,315. Por otra parte, en un país desarrollado, ocurrieron 1' 347,915 defunciones en total. De tales defunciones 114,304 correspondieron a niños menores de un año. Con la información anterior calcule e interprete la proporción de las defunciones de menores de un año en relación co n el total de las defunciones. Compare la importancia de la mortalidad de los ni ños menores de un año en cada país. 3. En un estudio sobre deserción escolar a nivel de licenciatura se encontró que de 894 estudiantes que ingresaron a la carrera de química 148 abandonaron los estudios durante el primer año de la carrera. Por otra parte, de 1,311 alumnos que ingresaron a la carrera de medicina 118 abandonaron los estudios durante el primer año de la carrera. Calcule y c ompare las tasas de deserción en p rimer año para ambas licenciaturas. 4. En un estudio efectuado en 1987 sobre el personal académico de instituciones públicas y privadas de educación superior se encontró que había 894 hombres y 1,814 mujeres en una universidad pública mientras que en una universidad privada de la misma región había 633 hombres y 274 mujeres. En la universidad pública se encontró que de los hombres 296 poseían grados académicos superiores al de licenciatura y de las mujeres 524 poseían grados análogos. Con respecto a la universidad privada, se encontró que 92 hombres y 38 mujeres poseían grados académicos superiores al de licenciatura. Con la información anterior calcule y describa para cada universidad lo sigu iente: •
razones homb res por cada mujeres
•
proporciones de académicos con estudios de posgr ado
76
Jesús Reynaga Obregón
La síntesis estadística como cuarta etapa del método estadístico. Medidas de resumen para variables cuantit ativas. Mediana y percentil es en series simpl es de datos. Cuando se desea sintetizar una serie de datos cuantitativos discretos, tales como el número de embarazos, el número de convulsiones o el número de habitaciones que tienen un grupo de viviendas, debe utilizarse a la mediana y a los percentiles. Estas medidas de resumen, a diferencia del promedio y la desviación estándar, son perfectamente apropiados para sintetizar a las variables cuantitativas discretas. Con el siguiente ejemplo debe quedar claro que el promedio y la desviación estándar no son medidas de resumen propias para sintetizar a las variables cuantitativas discretas: ¿qué significaría que el promedio de hijos de un grupo de madres fue de 2.75 hijos?, ¿significaría que en promedio cada una de las madres tuvo dos hijos completos y otro más al que le faltó un brazo? A diferencia del promedio y la desviación estándar, que solo deben usarse para sintetizar a variables cuantitativas continuas, la mediana y los percentiles pueden utilizarse para resumir tanto a variables cuantitativas discretas como a variables cuantitativas continuas.
La siguiente serie simple de valores se utili zará como ejemplo para ilustr ar el cálculo e interpretación d e la mediana y algunos percentiles: Peso en kilo gramos de un grup o de 20 niños de un año de edad 9.1 9.3
9.4 8.8
8.9 9.5
9.6 9.7
10.5 9.2
8.8 9.4
9.4 9.6
9.2 9.0
9.0 9.4
8.1 9.8
MEDIANA (o Percenti l 50) : Definición: En una serie de valores ordenados de menor a mayor, o viceversa, es aquel valor que divide en dos partes de igual tamaño a toda la serie. . Procedimiento: Ordenar la serie y localizar el valor que la divida en dos partes de igual tamaño, de tal manera que en una parte quede el 50% de los datos y en la otra el 50% restante. 8.1
8.8
8.8
8.9
9.0
9.0
9.1
9.2
9.2
9.3
9.4
9.4
9.4
9.4
9.5
9.6
9.6
9.7
9.8
10.5
En vista de que la serie es par no existe un valor que se ubique exactamente en el centro de la serie y que la divida en dos partes. Por lo anterior se considera que el promedio de los dos valores centrales que están colocados en las posiciones 10ª y 11ª corresponde al valor de la mediana; es decir: la mediana equivale al valor promedio de 9.3 y 9.4 (9.35)
Interpretación: "La mitad de los niños tuvieron un peso igual o menor que 9.35 kilogramos y la otra mitad pesaron 9.35 o más kilogramos"
77
Jesús Reynaga Obregón
PERCENTILES ( Pp ) : Definición: En una serie de valores ordenados, de menor a mayor o viceversa, es aquel valor que divide en dos partes porcentualmente compl ementarias a toda la serie. Por ejemplo: el percentil 40 divide a la serie en una parte que contiene al 40 % de los valores iguales o inferiores a él y, simultáneamente, en otra parte que contiene al 60% de los valores de la serie iguales o mayores a dicho percentil.
Procedimiento: Ordenar la serie y localizar el valor que la divida en los porcentajes complementarios deseados. Por ejemplo, para encontrar el valor del percentil 25 debe localizarse a aquel que deje a una cuarta parte de los valores con menores o iguales magnitudes a él y a las tres cuartas partes restantes de los valores con magnitudes más grandes o iguales a él. 8.1
8.8
8.8
8.9
9.0
9.0
9.1
9.2
9.2
9.3
9.4
9.4
9.4
9.4
9.5
9.6
9.6
9.7
9.8
10.5
En esta serie, entre los valores 9.0 se debe encontrar un valor en una posición tal que hasta él se encuentra el 25% de los casos y, simultáneamente, desde él se encuentra el 75% restante de los casos. Usualmente cualquier percentil se ubica en una posición localizada mediante la siguiente fórmula:
Lugar que ocupa el percentil buscado =
(p buscado ) (n + 1) 100
Para el caso del percentil 25, a la posición
(p 25 ) (20 + 1) 100
le corresponde el lugar
(25) (21) 100
=
5.25
Lo anterior significa que el percentil 25 se encuentra entre el lugar 5 y el lugar 6. En estos casos, por convención, se considera posible obtener un promedio de los valores que se encuentren en las posiciones adyacentes. Como ya se observó, la quinta posición está ocupada por un valor de 9.0 y la sexta por un valor también de 9.0; por lo anterior, el promedio de ambos valores es igual a 9.0.
Interpretación: (Válida para el Percentil 25 o P 25) :
" El 25% de los niños tuvo un peso de 9.0 kilogramos o menor y el 75% restante tuvo peso de 9.0 kilogramos ó mayor". Como ejemplo adicional supongamos que se desea encontrar el valor del percentil 75. Para ello debe localizarse a aquel que deje a tres cuartas partes de los valores con menores o iguales magnitudes a él y a la cuarta parte restante de los valores con magnitudes más grandes o iguales a él. 8.1
8.8
8.8
8.9
9.0
9.0
9.1
9.2
9.2
9.3
9.4
9.4
9.4
9.4
9.5
9.6
9.6
9.7
9.8
10.5
En esta serie, entre los valores 9.5 y 9.6 se debe encontrar un valor en una posición tal que hasta él se encuentra el 75% de los casos y, simultáneamente, desde él se encuentra el 25% restante de los casos.
78
Jesús Reynaga Obregón
Utilizando la fórmula: Lugar que ocupa el percentil buscado =
(p buscado ) (n + 1) 100
Se tiene que al percentil 75 le corresponde la posición
(p 75 ) (20 + 1) 100
que equivale a
(75) (21) = 15.75 100
Lo anterior significa que el percentil 75 se encuentra entre el lugar 15 y el lugar 16. Como ya se dijo, en estos casos, y por convención, se considera posible obtener un promedio de los valores que se encuentren en las posiciones adyacentes. Como ya se observó, la posición 15 está ocupada por un valor de 9.5 y la posición 16 por un valor también de 9.6; por lo anterior, el promedio de ambos valores es igual a 9.55.
Interpretación: (Válida para el Percentil 75 o P75) :
" El 75% de los niños tuvo un peso de 9.55 kilogramos o menor y el 25% restante tuvo peso de 9.55 kilogramos ó mayor".
RANGO INTERCUARTÍLICO (RIC): Se define al rango intercuartílico (RIC) como la diferencia entre los percentiles 75 y 25. El rango intercuartílico es una medida que abarca al 50% central de los valores de una serie ordenada de números y viene siendo una medida de síntesis que expresa el grado de homogeneidad o heterogeneidad de dicho porcentaje de datos. Para el ejemplo que se ha venido siguiendo se tiene que la diferencia p75 – p25 es igual a 9.55 – 9.0 = 0.55; lo anterior quiere decir que, específicamente refiriéndose al 50% central de los datos ya ordenados, la diferencia entre el mayor y el menor de los datos de dicho 50% central de los valores es de 0.55 kilogramos. El RIC es una medida que permite comparar con facilidad la homogeneidad o heterogeneidad de dos series de datos semejantes; vease el sigui ente ejemplo:
Peso al nacer de dos grupos de niños según duración de la gestación Número de niños
Duración de la gestación en semanas
p 25
p 75
Diferencia p 75 – p 25
60
32
1,800
2,800
1,000
2,709
39
2,884
3,132
248
79
Comentario El 50% central de la serie de pesos de los 60 niños tiene una diferencia entre el mayor de los pesos y el menor de ellos de 1,000 gramos. Puede hablarse de gran heterogeneidad El 50% central de la serie de pesos de los 2,709 niños tiene una diferencia entre el mayor de los pesos y el menor de ellos de 248 gramos. Puede hablarse de gran homogeneidad
Jesús Reynaga Obregón
PROBLEMA RESUELTO Luego de criar durante dos años a un grupo de 20 cerdos en una granja modelo que funcionaba bajo el régimen de sociedad cooperativa, en condiciones de estricta higiene animal, se sacrificaron y observaron sus cerebros en búsqueda de quistes de cisticercos. Los hallazgos se compararon con otro grupo de 20 cerdos criados en los patios de las casas de la misma localidad.
Cerdos p rovenientes de la granja modelo Cerdo No. Quistes
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1 5
1 6
1 7
18
19
20
1
3
0
2
3
1
2
2
1
4
1
0
1
1
2
1
0
2
4
1
Cerdos p rovenientes de patios de casas Cerdo No. Quistes
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1 5
1 6
1 7
18
19
20
7
4
2
4
5
1
0
2
2
9
2
3
4
4
1
6
4
4
3
1
Preguntas: a) Para cada grupo identifique la mediana (o percentil 50) y emita una opinión con respecto a los resultados.
b) Para cada grupo identifique los valores mínimo y máximo, así como los percentiles 25 y 75 y llene la siguiente tabla:
Valor mínimo
Percentil 25
Percentil 75
Valor máximo
Grupo "Granja" Grupo "Patios" c) Emita una opinión en relación con los hallazgos en términos de porcentajes de cada grupo considerando a los percentiles 25 y 75.
d) No olvide discutir los hallazgos para el 50% central de los animales de uno y otro grupo que se encontraron entre los percentiles 25 y 75 de cada uno de los grupos. También, opine sobre la homogeneidad y heterogeneidad de los grupos.
Para responder a las preguntas, primero se ordenan los datos y se localizan los percentiles buscados: Cerdos p rovenientes de la granja modelo Cerdo No.
3
1 2
1 7
1
6
9
1 1
1 3
1 4
16
20
4
7
8
1 5
1 8
2
5
10
19
Quistes
0
0
0
1
1
1
1
1
1
1
1
2
2
2
2
2
3
3
4
4
P25 = (1+1) / 2 = 1
P50 = (1+1) / 2 = 1
80
P75 = (2+2) / 2 = 2
Jesús Reynaga Obregón
Cerdos p rovenientes de patios de casas Cerdo No.
7
6
1 5
2 0
3
8
9
1 1
1 2
19
2
4
13
14
1 7
1 8
5
16
1
10
Quistes
0
1
1
1
2
2
2
2
3
3
4
4
4
4
4
4
5
6
7
9
P25 = (2+2) / 2 = 2
P50 = (3+4) / 2 = 3.5
P75 = (4+4) / 2 = 4
Respuestas: a) La mediana del grupo granja fue 1 y la del grupo patios fue 3.5. Se observó que la mitad de los cerdos del grupo granja tuvo 1 o menos quistes y la otra mitad de ellos tuvieron 1 o más quistes Se observó que la mitad de los cerdos del grupo patios tuvo 3.5 o menos quistes y la otra mitad de ellos tuvieron 3.5 o más quistes
b) Grupo "Granja" Grupo "Patios"
Valor mínimo
Percentil 25
Percentil 75
Valor máximo
0 0
1 2
2 4
4 9
c) En el grupo granja una cuarta parte de los cerdos tuvo hasta 1 quiste y las tres cuartas partes restantes tuvieron desde 1 quiste en adelante. En el grupo granja tres cuartas partes de los cerdos tuvieron hasta 2 quistes y la cuarta parte restante tuvo desde 2 quistes en adelante. En el grupo patios una cuarta parte de los cerdos tuvo hasta 2 quistes y las tres cuartas partes restantes tuvieron desde 2 quistes en adelante. En el grupo patios tres cuartas partes de los cerdos tuvieron hasta 4 quistes y la cuarta parte restante tuvo desde 4 quistes en adelante.
d) En el grupo granja el 50% central de los cerdos tuvieron entre 1 y 2 quistes, mientras que en el grupo patios el 50% central de los cerdos tuvieron entre 2 y 4 quistes; por lo anterior puede decirse que los cerdos del grupo granja fueron más homogéneos y los del grupo patios fueron más heterogéneos.
81
Jesús Reynaga Obregón
La síntesis estadística como cuarta etapa del método estadístico . Medidas de resumen p ara variables cuantitativas. Promedio y desviación estándar en series sim ples de datos. La siguiente serie simple de valores se utilizará como ejemplo para ilustrar el cálculo e interpretación de las medidas de resumen: Peso en kilogr amos de un grupo de 20 niños de un año de edad 9.1
9.4
8.9
9.6
10.5
8.8
9.4
9.2
9.0
8.1
9.3
8.8
9.5
9.7
9.2
9.4
9.6
9.0
9.4
9.8
PROMEDIO: Definición: Es el valor que tendrían todos los datos de una serie numérica si el los fueran de igual valor.
Fórmula:
x=
∑x n
Procedimiento: Sumar todos los valores y dividir tal suma entre el número de valores que componen a la serie simple. En este caso la suma es: 185.7 y, entonces, el promedio vale: 185.7 / 20 = 9.285 Kilogramos Interpretación: "Si todos los niños tuvieran peso igual, éste sería de 9.285 kilogramos".
DESVIACION ESTANDAR 1
Definición: Es la raíz cuadrada de la varianza. A su vez, la varianza equivale al promedio de las desviaciones o diferencias cuadráticas de cada valor de una serie con respecto al promedio de dicha serie.
Fórmula:
s=
∑ (x − x)
2
n -1
1 Junto con esta sección se recomienda estudiar documentos y realizar ejercicios relacionados con la curva normal
82
Jesús Reynaga Obregón
Procedimiento:
Paso 1. Obtener el promedio de la serie de valores. En este caso, por tratarse de una serie simple de vax x= lores se usa la fórmula anteriormente revisada: n
∑
Paso 2. Calcular la desviación o diferencia de cada valor en relación con el promedio de la serie; es decir obtener una serie de valores
(x − x )
Paso 3.Elevar al cuadrado cada una de las anteriores desviaciones; es decir obtener una serie de valores
(x − x )
2
Paso 4.Efectuar la suma de desviacione s cuadráticas; es decir obtener el valor
∑ (x − x )
2
Paso 5.Dividir la suma anterior entre el número de valores meno s uno; es decir: obtener el promedio de
∑ (x − x )
desviaciones cuadráticas o varianza:
2
n -1
Paso 6.Obtener la raíz cuadrada del anterior promedio; es decir obtener la desviación estándar:
∑ (x − x )
2
s=
n -1
Así, los cálculos para los pesos de los 20 niños son los siguientes:
Para el paso 1: El promedio, ya calculado en párrafos anteriores vale: 9.285 kgrs.
Para los pasos 2, 3 y 4 se recomienda utilizar una tabla auxiliar como la siguiente para efectuar los cálculos:
83
Jesús Reynaga Obregón
Cada uno de los valores Xi
Desviación de cada valor con respecto al promedio __ ( Xi - X ) (paso 2) -0.185 0.115 -0.385 . . 0.515
9.1 9.4 8.9 . . 9.8
Elevación al cuadrado de cada una de las desviaciones __ 2 ( Xi - X ) (paso 3) 0.034 0.113 0.148 . . 0.265. 4.446 (paso 4)
Para el paso 5: El promedio de desviaciones cuadráticas, o varianza, vale entonces: 4.446 / (20 + 1) = 0.212
Para el paso 6: Finalmente la desviación estándar, que equivale a la raíz cuadrada de la varianza equivale a la raíz cuadrada de 0.212 o sea: 0.460 kgrs.
Interpretación: La interpretación está condicionada a la suposición de que los valores tienen una distribución semejante a la de la curva normal 2. Dicha interpretación puede ser realizada en múltiples sentidos ya que se sabe que el 68.27% de los valores de una serie que se distribuye como la curva normal están agrupados alrededor del promedio si a éste se le resta una vez y también se le suma una vez el valor calculado para la desviación estándar. Para el ejemplo, puede decirse entonces que el 68.27% de los niños tuvieron pesos que fluctuaron desde 8.825 kgrs (es decir: 9.285 kgrs menos 0.460 kgrs) hasta 9.745 kgrs. (es decir: 9.285 más 0.460 kgrs.). Por otra parte, como se sabe que la curva normal tiene una área que equivale a un total de 100%, entonces también puede decirse que hubo un 31.73% de los niños que pesaron menos de 8.825 kgrs. o que pesaron más de 9.745 kgrs. (ya que si a 100% se le resta 68.27% quedan 31.73%).
2 Ver documentos relacionados con la curva normal 84
Jesús Reynaga Obregón
Relación entre el promedio y la desviación estándar con la curva nor mal Cuando se calcula la desviación estándar para una serie de datos no siempre es evidente el significado del resultado obtenido y menos lo es aún si no se compara con la desviación estándar de otra serie diferente de datos. Para muchas personas podría tener significado que le dijeran que el promedio de peso de un grupo de 300 personas fue de 80 kilos pues, si se acuerda de la definición del promedio, imaginaría que si todos los individuos tuvieran el mismo peso este sería de 80 kilos; sin embargo para quienes no tienen conocimiento de las características básicas del modelo de la curva normal podría carecer de significado que le mencionaran que la desviación estándar del peso de las mismas personas fue de 5 kilos. Interpretar la desviación estándar y comprender cabalmente lo que ella significa en relación con los datos que se están manejando solo es posible a la luz del conocimiento del modelo de la curva normal. PROPIEDADES PRINCIPALES DE LA CURVA NORMAL
1. La curva normal es un polígono de frecuencias en forma de campana para el que están calculadas sus áreas en función de los diversos valores del eje horizontal o abscisa.
2. En la abscisa se encuentran valores de tipo cuantitativo continuo, genéricamente denominados valores z, cuyas magnitudes teóricamente pueden ir, de izquierda a derecha desde - hasta + ( desde menos infinito hasta mas infinito).
3. El promedio de todos los valores z de la abscisa equivale a cero, pues la mitad son negativos y la mitad son positivos. En el sitio de la abscisa que corresponde al cero, es decir al promedio, se encuentra la parte más alta de la curva. En este sitio también se encuentra la mediana de todos los valores z de la abscisa, pues el 50% de ellos está antes del cero y el 50% restante se encuentra después.
4. La curva es simétrica alrededor del promedio; esto es, hay una mitad izquierda que es reflejo de la mitad derecha.
5. En la abscisa existen segmentos unitarios de igual longitud y de tamaño 1. Los segmentos a la izquierda del promedio tienen signo negativo y los segmentos a la derecha del promedio tienen
85
Jesús Reynaga Obregón
signo positivo. Tales segmentos, denominados desviaciones estándar pueden dividirse en fracciones infinitamente pequeñas y continuas.
6. La curva es asintótica; es decir, sus extremos teóricamente nunca tocan a la abscisa. Por ello, la longitud de la abscisa podría ser infinitamente larga; sin embargo se acostumbra graficar solo hasta la distancia de tres segmentos a la izquierda y a la derecha del promedio.
7. Toda el área bajo la curva vale 1. Por lo anterior el área a la izquierda del promedio vale .5 y el área a la derecha del promedio vale también .5
8. El área que se encuentra sobre el segmento de la abscisa que va desde el promedio hasta el
valor z de +1 vale .3413; por simetría, el arrea que se encuentra sobre el segmento que va desde el promedio hasta el valor z de -1 de la abscisa también vale .3413 Por lo anterior el área que se encuentra por arriba del amplio segmento que va desde el valor z de -1 hasta el valor z de +1 equivale a .6826; es decir a la suma de .3413 mas .3413
9. El área que se encuentra sobre el segmento de la abscisa que van más allá del valor z de +1 vale .1587; por simetría, el arrea que se encuentra sobre el segmento que va más allá (hacia menos infinito) del valor z de -1 de la abscisa también vale .1587
10. Para cualquier segmento de la abscisa, y aún para fracciones de segmento, se encuentran calculadas las áreas correspondientes en tablas como la siguiente:
(A) Valor z
(B) Area entre el promedio y el valor z
(C) Area más all á del valor z
0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.65 1.75 1.96 2.00 2.58
.0000 .0987 .1915 .2734 .3413 .3944 .4332 .4505 .4599 .4750 .4772 .4950
.5000 .4013 .3085 .2266 .1587 .1056 .0668 .0495 .0401 .0250 .0228 .0050
.
.
.
86
Jesús Reynaga Obregón
APROVECHAMIENTO DE LA S PROPIEDADES DE LA CURVA NORMAL PARA LA INTERPRETACION DE LA DESVIACION ESTANDAR
Al principio de este documento se comentó que sin conocer las características básicas del modelo de la curva normal podría carecer de significado que se mencionara que el valor de la desviación estándar del peso de 300 personas fue de 5 kilos. Una vez que se han comprendido las propiedades principales de la curva normal es posible entender el significado del valor de la desviación estándar del peso de las 300 personas si se hacen suposiciones como las siguientes: Suponiendo que al graficar el peso de los 300 individuos con un polígono de frecuencias, el gráfico resultante fuera muy parecido al modelo de la curva normal como se muestra en la siguiente ilustración:
entonces podría decirse que: •
•
el área bajo la curva de valores de peso que contiene a los individuos vale 300 de manera semejante a la propiedad del modelo de la curva normal de que su área vale 1; a la izquierda del promedio existen 150 individuos y a la derecha del promedio existen los otros 150;
87
Jesús Reynaga Obregón
•
•
•
•
•
así como en la curva normal existe una área de .3413 sobre el segmento que va desde el valor z de 0 hasta el valor z de + 1 en la curva de valores x (es decir kilos de peso) habrá el .3413 de 300 o sea que habrá 102 personas sobre el segmento que va desde el valor x de 80 kilos hasta el valor x de 85 kilos; de acuerdo al párrafo anterior, habrá 204 personas con pesos que van desde 75 hasta 85 kilos; al igual que en la curva normal existe simetría alrededor del promedio, se puede considerar que en la curva de valores de peso habrá 102 personas sobre el segmento que va desde 80 kilos hasta 75 kilos de peso; en la curva de valores peso habrá un .1587 de las 300 personas; es decir 48 personas, con pesos de 85 y más kilos; de manera semejante a la curva normal, por simetría habrá un .1587 de las 300 personas; es decir 48 personas, con pesos de 75 y menos kilos.
Como puede apreciarse, una vez que se conocen las características del modelo de la curva normal, la interpretación del resultado de la desviación estándar que se haya calculado para una serie de datos es mucho más fácil y brinda una gran cantidad de información sobre la manera en que se distribuyen los valores. Para confirmar que la comprensión del significado de la desviación estándar brinda una importante cantidad de información obsérvese el siguiente ejemplo: Relato: Se aplicó un mismo examen escrito a dos grupos de 90 alumnos cada uno. En un caso se imprimió el examen en hojas de color amarillo paja y en otro caso en hojas de color marrón. Se midió con cronómetro el tiempo, en minutos y fracciones, que tardaron los alumnos en entregar el examen y se calculó el promedio y la desviación estándar para ambos grupos obteniéndose los siguientes resultados:
Grupo Color Paja Color Marrón
Promedio 45' 45'
Desviación Estándar 5' 15'
Al gu nas interpretac iones a par tir de los valo res de l a desviaci ón estándar: •
•
•
Los alumnos a quienes se aplicó el examen impreso en hojas color paja entregaron el examen en tiempos más homogéneos, pues el .6826 de ellos (es decir 61 alumnos) lo entregaron entre 40 y 50 minutos luego de haberlo iniciado. Los alumnos a quienes se aplicó el examen impreso en hojas color marrón entregaron el examen en tiempos más heterogéneos, pues el .6826 de ellos (es decir 61 alumnos) lo entregaron entre 30 y 60 minutos luego de haberlo iniciado. En el grupo paja el .1587 más lento de los alumnos (es decir: 14) entregaron su examen luego de 50 minutos, mientras que en el grupo marrón la misma cantidad de alumnos lo hizo luego de 60 minutos.
88
Jesús Reynaga Obregón
TRANSFORMACIÓN DE VALORES x A VALORES z; USO DE LA TAB LA DE AREAS BAJ O LA CURVA
En la sección anterior se ha visto que hay correspondencia entre las áreas de la curva normal y las de la serie de datos cuantitativos continuos que se esté manejando siempre y cuando se haya comprobado que esta última, al ser graficada con un polígono de frecuencias, muestra un parecido razonable con el perfil de la curva normal. Tal correspondencia ha permitido solamente mencionar las áreas que se encuentran sobre segmentos completos de la abscisa; es decir, solamente se ha hecho mención de áreas por arriba o más allá de desviaciones estándar enteras. Sin embargo, cómo podría responderse a la pregunta ¿cuantos alumnos de cada grupo tardaron 47 o más minutos en entregar su examen?.
En este caso se aprecia que no hay coincidencia entre el valor z de + 1 y el valor x de 47 minutos y por ello deja de ser útil el método de comparación analógica de los gráficos que se utilizó en páginas anteriores. La respuesta estriba en el uso de una fórmula para transformar cualquier valor x en su correspondiente valor z y en hacer uso de la tabla de áreas bajo la curva normal. Una vez que se han calculado tanto el promedio como la desviación estándar para una serie de datos cuantitativos continuos, el valor z que, en la abscisa de la curva normal corresponde a un determinado valor x de la abscisa de los datos que se están manejando, se encuentra con la fórmula: x x z s −
=
Para responder a la pregunta recientemente planteada de ¿cuantos alumnos de cada grupo tardaron 47 o más minutos en entregar su examen? se hacen las siguientes sustituciones: Para el grupo al que se aplicó el examen en hojas color paja se tiene que x
= 45' y s = 5' ;
el valor z que se desea conocer es el correspondiente a un valor x de 47; entonces:
z
47 45
2
−
=
=
5
5
=
.4
El valor z obtenido, en este caso .4 debe localizarse en la primera columna de la tabla de áreas bajo la curva (1) . Una vez localizado tal valor, se busca en la segunda columna cuál es el área que en la curva normal se encuentra más allá de dicho valor z; en este caso es de .3446.
1
Usar la tabla detallada de áreas bajo la cur va normal que se encuentra co mo anexo de este documento. Dicha tabla tiene ligeras diferencias de formato con la de la página 2
89
Jesús Reynaga Obregón
Como el área encontrada (.3446) es una proporción del área total, entonces la misma proporción se aplica al total de alumnos del grupo para saber cuantos tardaron más de 47 minutos en entregar el examen. Así, luego de efectuar la operación .3446 X 90 = 31, puede responderse a la pregunta con el señalamiento de que hubo en este grupo 31 alumnos que tardaron 47 o más minutos en entregar su examen. Desde luego, al conocer las propiedades básicas de la curva normal, también se puede decir que hubo 59 alumnos que tardaron 47 o menos minutos en entregar su examen. Por otra parte, para el grupo al que se aplicó el examen en hojas color marrón se tiene que x
= 45' y s = 15' ;
el valor z que se desea conocer es el correspondiente a un valor x de 47; entonces:
z
47 45 2 .13 15 15 −
=
=
=
El valor z obtenido, en este caso .13 debe localizarse en la primera columna de la tabla de áreas bajo la curva (2) . Una vez localizado tal valor, se busca en la segunda columna cuál es el área que en la curva normal se encuentra más allá de dicho valor z; en este caso es de .3446. Como el área encontrada (.4483) es una proporción del área total, entonces la misma proporción se aplica al total de alumnos del grupo para saber cuantos tardaron más de 47 minutos en entregar el examen. Así, luego de efectuar la operación .4483 X 90 = 40, puede responderse a la pregunta con el señalamiento de que hubo en este grupo 40 alumnos que tardaron 47 o más minutos en entregar su examen. Desde luego, al conocer las propiedades básicas de la curva normal, también se puede decir que hubo 50 alumnos que tardaron 47 o menos minutos en entregar su examen.
2 Usar la tabla detallada de áreas bajo la cur va normal qu e se encuentra como anexo de este documento. Dicha tabla tiene ligeras diferencias de formato con la de la página 2
90
Jesús Reynaga Obregón
Valor Z
rea desde el rea en el Ár ea entre el extremo mismo extremo promedio y el opuesto hasta más allá del valor Z el valor Z valor Z
(A)
(B)
(C)
Z
Z
Z
x x z s −
=
91
(D)
Jesús Reynaga Obregón
Área en el Área entr e el Valor Z Área desde el extremo mismo promedio y el opuesto hasta extremo más valor Z el valor Z allá del valor Z (A) (B) (C) (D)
0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.19 0.20 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.30 0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39 0.40 0.41 0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49 0.50
0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879 0.6915
0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121 0.3085
Área en el Área entr e el Valor Z Área desde el extremo mismo promedio y el opuesto hasta extremo más valor Z el valor Z allá del valor Z (A) (B) (C) (D)
0.50 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59 0.60 0.61 0.62 0.63 0.64 0.65 0.66 0.67 0.68 0.69 0.70 0.71 0.72 0.73 0.74 0.75 0.76 0.77 0.78 0.79 0.80 0.81 0.82 0.83 0.84 0.85 0.86 0.87 0.88 0.89 0.90 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99 1.00
0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879 0.1915
92
0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389 0.8413
0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611 0.1587
0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549 0.2580 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389 0.3413
Jesús Reynaga Obregón
Área en el Área entre el Valor Z Área desde el extremo mismo promedio y el opuesto hasta extremo más valor Z el valor Z allá del valor Z (A) (B) (C) (D)
1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.10 1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19 1.20 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.30 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.40 1.41 1.42 1.43 1.44 1.45 1.46 1.47 1.48 1.49 1.50
0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319 0.9332
0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681 0.0668
Valor Z
(A)
1.50 1.51 1.52 1.53 1.54 1.55 1.56 1.57 1.58 1.59 1.60 1.61 1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 1.70 1.71 1.72 1.73 1.74 1.75 1.76 1.77 1.78 1.79 1.80 1.81 1.82 1.83 1.84 1.85 1.86 1.87 1.88 1.89 1.90 1.91 1.92 1.93 1.94 1.95 1.96 1.97 1.98 1.99 2.00
0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319 0.4332
93
Área desde el Área en el Área entre el extremo mismo promedio y el opuesto hasta extremo más valor Z el valor Z allá del valor Z (B) (C) (D)
0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767 0.9772
0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233 0.0228
0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767 0.4772
Jesús Reynaga Obregón
Área en el Área Valor Z Área desde el Ár ea entr e el extremo mismo promedio y el opuesto hasta extremo más valor Z el valor Z allá del valor Z (A) (B) (C) (D)
2.00 2.01 2.02 2.03 2.04 2.05 2.06 2.07 2.08 2.09 2.10 2.11 2.12 2.13 2.14 2.15 2.16 2.17 2.18 2.19 2.20 2.21 2.22 2.23 2.24 2.25 2.26 2.27 2.28 2.29 2.30 2.31 2.32 2.33 2.34 2.35 2.36 2.37 2.38 2.39 2.40 2.41 2.42 2.43 2.44 2.45 2.46 2.47 2.48 2.49 2.50
0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936 0.9938
0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064 0.0062
Valor Z
(A)
2.50 2.51 2.52 2.53 2.54 2.55 2.56 2.57 2.58 2.59 2.60 2.61 2.62 2.63 2.64 2.65 2.66 2.67 2.68 2.69 2.70 2.71 2.72 2.73 2.74 2.75 2.76 2.77 2.78 2.79 2.80 2.81 2.82 2.83 2.84 2.85 2.86 2.87 2.88 2.89 2.90 2.91 2.92 2.93 2.94 2.95 2.96 2.97 2.98 2.99 3.00
0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936 0.4938
94
Área desde el Área en el Área en tre el extremo mismo promedio y el opuesto hasta extremo más valor Z el valor Z allá del valor Z (B) (C) (D)
0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986 0.9987
0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014 0.0013
0.4938 0.4940 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952 0.4953 0.4955 0.4956 0.4957 0.4959 0.4960 0.4961 0.4962 0.4963 0.4964 0.4965 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4972 0.4973 0.4974 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.4980 0.4981 0.4981 0.4982 0.4982 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986 0.4987
Jesús Reynaga Obregón
1 Se dice que una distribución de valores cuantitativos continuos tiene semejanza a la curva normal si su sesgo, calculado a través del método de momentos, vale entre - 0.5 y + 0.5 , lo cual se simboliza de la siguiente forma : - 0.5 < a3 < + 0.5 y su curtosis, también calculada a través través del método de momentos, vale entre 2 y 4, lo cual se simboliza de la siguiente forma : 2 < a4 < 4
2
Las fórmulas para calcular el sesgo y la curtosis, a través del método de momentos, son las siguientes: m4 m3 a SESGO CURTOSIS = a3 = 4 2 3 (m 2 ) m2
(
)
3 El cálculo de momentos para series simples de datos cuantitativos continuos se hace con las fórmulas siguientes: MOMENTOS EN SERIES SIMPLES
Momento 2
Momento 3
Momento 4
m2 =
m3 =
m4 =
⎛ _ ⎞ ∑ ⎝ ⎜x − x ⎠⎟
2
n
⎛ _ ⎞ ∑ ⎝ ⎜x − x ⎠⎟
3
n
⎛ _ ⎞ ∑ ⎝ ⎜x − x ⎠⎟ n
95
4
Jesús Reynaga Obregón
4 En el caso de las series simples de valores, conviene efectuar el cálculo de los momentos a través de una tabla auxiliar de trabajo como la del siguiente ejemplo: Ejemplo con una serie simple de valores:
PESO EN KILOGRAMOS DE UN GRUPO DE 20 NIÑOS DE UN AÑO DE EDAD 9.1 9.3
9.4 8.8
8.9 9.5
9.6 9.7
10.5 9.2
8.8 9.4
9.4 9.6
9.2 9.0
9.0 9.4
8.1 9.8
El promedio vale: 9.285 kgrs.
Cada uno de los valores
Desviación de cada valor con respecto al promedio
__ Xi
( Xi - X )
9.1 9.4 8.9 9.6 10.5 8.8 9.4 9.2 9 8.1 9.3 8.8 9.5 9.7 9.2 9.4 9.6 9 9.4 9.8 Su m as
Elevación al cuadrado de cada una de las desviaciones __ 2
Elevación al cubo de cada una de las desviaciones __ 3
Elevación a la cuarta de cada una de las desviaciones __ 4
( Xi - X )
( Xi - X )
( Xi - X )
-0.185 0.115 -0.385 0.315 1.215 -0.485 0.115 -0.085 -0.285 -1.185 0.015 -0.485 0.215 0.415 -0.085 0.115 0.315 -0.285 0.115 0.515
0.034 0.013 0.148 0.099 1.476 0.235 0.013 0.007 0.081 1.404 0.000 0.235 0.046 0.172 0.007 0.013 0.099 0.081 0.013 0.265
-0.006 0.002 -0.057 0.031 1.794 -0.114 0.002 -0.001 -0.023 -1.664 0.000 -0.114 0.010 0.071 -0.001 0.002 0.031 -0.023 0.002 0.137
0.001 0.000 0.022 0.010 2.179 0.055 0.000 0.000 0.007 1.972 0.000 0.055 0.002 0.030 0.000 0.000 0.010 0.007 0.000 0.070
0.000
4.446
0.077
4.421
96