Capitulo 10 Análisis de los datos cuantitativos Hernández Sampieri Una vez que los los datos se han codificado, transferido a una matriz, guardado en un archivo y limpiado de errores, el investigador procede a analizarlos. El análisis de los datos en la mayoría de los casos se realiza de manera ³automatizada´, mediante ³software´ y sobre una matriz de datos. Fases del Análisis de los datos Fase 1 Seleccionar el programa Fase 2 Ejecutarlo Fase 3 Explorar los datos Fase 4 Evaluar confiabilidad y validez Fase 5 Analizar las Hipótesis Fase 6 Análisis adicionales Fase 7 Presentar los resultados Paso 1 Seleccionar un programa de análisis Hay diversos programas, su funcionamiento es muy similar. Se integran de dos partes: * La definición de las variables * La matriz de los datos Ejemplo de una matriz de datos Caso | Genero | Color de pelo 1 |1 |1 | 35 | 2 |1 |1 | 29 | 3 |2 |1 | 28 | 4 |2 |4 | 33 |
| Edad |
Genero 1= masculino 2= femenino Color de pelo 1=negro 2=castaño 3=pelirrojo 4= rubio Edad (valor bruto) en años * SPSS o SPAW Paquete estadístico para las ciencias sociales, desarrollado por la Universidad de Chicago, es uno de los más difundidos.
* MINITAB Es de bajo costo, tiene un ³demo´ en http://minitab.com Paso 2 Ejecutar el programa * Antes de realizar la instalación del programa, es necesario revisar que nuestro equipo cumpla con todos los requisitos para la ejecución del paquete, de manera que no se presenten conflictos en el equipo durante la instalación o en la ejecución del programa. * El Hardware y el Software son mínimos para ejecutar SPSS Paso 3 Explorar los datos * Esta etapa es inmediata a la ejecución del programa, es sencilla si se llevó a cabo la sucesión de las etapas previas. Etapa 1 Menú Analizar/informes/ Estadísticos descriptivos/Frecuencias Se solicitan para todos los ítems (variable, matriz por matriz): * Informes de la matriz, para ver los resultados ítem por ítem o fila por fila Estadísticos descriptivos a) Descriptivos (tabla con las estadísticas fundamentales de todas las variables de la matriz, columnas o ítems) b) Frecuencias (tablas de la frecuencia de las variables dela matriz c) Explorar (relación entre las variables de la matriz) d) Generar tablas de contingencia e) Generar razones Etapa 2 El investigador evalúa las distribuciones y estadísticas de los ítems o columnas, observa que ítems tienen una distribución lógica e ilógica y agrupa a los ítems o indicadores en las variables de investigación (variables compuestas) de acuerdo a sus definiciones operacionales y la forma como desarrolló sus instrumentos de medición. Etapa 3 Menú Transformar/Calcular Se indica al programa como debe agrupar los ítems en las variables de su estudio. Etapa 4 Menú Analizar Se solicitan para todas las variables del estudio: a) Estadísticas descriptivas (tablas con los estadísticos fundamentales de todas las variables) b) Un análisis de frecuencias con estadísticas, tablas y gráficas. DATOS ESTADÍSTICOS
* Variable de la matriz de datos Es una columna o un ítem * Variable de investigación Son las propiedades medidas y que forman parte de las hipótesis o que se pretenden describir Variable compuesta Es cuando la variable de investigación está integrada por varias variables de la matriz o ítems. * El análisis de los datos depende de tres factores a) Nivel de medición de la variable b) Como se formularon las hipótesis u objetivos c) Interés del investigador El análisis descriptivo final es sobre las variables del estudio La estadística no es un fin en sí misma sino una herramienta para evaluar datos y probar hipótesis. Estadística descriptiva Distribución de frecuencias Es el conjunto de puntuaciones ordenadas en sus respectivas categorías. Distribución de frecuencias (como desea que se le llame étnicamente) Categorías | Códigos (valores) | Frecuencias | Hispano |1 | 52 | Latino |2 | 88 | Latinoamericano |3 |6 | Americano | 4 | 22 | Otros | 5 | 20 | No respondieron |6 | 12 | Total | | 200 | Distribución de frecuencias Cuando la descripción de la s frecuencias son tantas es necesario resumirla en rangos. Ejemplo: 1- 10 11-20 21-30 Etc. Distribución de frecuencias (cooperación del personal en el proyecto de calidad de la empresa)
Categorías | Códigos (valores) | Frecuencias acumulado | Se ha obtenido colaboración |1 | 91 No se ha obtenido colaboración |2 |5 No respondieron |3 | 26 | 21.3 | 100 Total | | 122 | 100 | |
| Porcentaje válido
|
Porcentaje
| 74.6 | 74.6 | | 4.1 | 78.7 | |
Distribución de frecuencias (motivos de la preferencia de su personaje preferido) | | Frecuencias | Porcentaje | Validos | Divertidos | 142 | 72.1 | Buenos | 10 | 5.1 | 5.2 | Tienen poderes | 23 | 11.7 | Son fuertes | 19 | 9.6 | 9.8 | Total | 194 | 98.5 | 100 | Perdidos | No contestaron |3 Total | | 197 | 100 | |
| Porcentaje válido | 73.2 | 78.4 | 11.9 | 100 | | 1.5 |
| Porcentaje acumulado
| 73.2 | | | 90.2 | | |
|
|
Otras maneras de presentar la distribución de frecuencias * Gráfica de Histogramas * Gráfica de Barras * Gráfica de Circulares * Polígono de frecuencias Relaciona las puntuaciones con sus respectivas frecuencias por medio de gráficas útiles para describir los datos Medidas de la tendencia central Valores medios o centrales de una distribución que sirven para ubicarla dentro de la escala de medición. Moda Es la categoría o puntuación que se presenta con mayor frecuencia Mediana Valor que divide la distribución por la mitad Cálculo de la Mediana
N+1 9+1 _______ = ________= 5 2 2
Media Es el promedio aritmético de una distribución y es la medida de tendencia central más utilizada Es la suma de todos los valores entre el número de casos
Medidas de variabilidad Son intervalos que indican la dispersión de los datos en la escala de medición Rango (Recorrido) Indica la extensión total de los datos en la escala XM-Xm Desviación estándar Promedio de desviación de las puntuaciones con respecto a la media que se expresa en las unidades originales de medición de la distribución. Varianza Se usa en los análisis inferenciales. Otra estadística descriptiva Asimetría y curtosis Estadísticas que se usan para conocer cuánto se parece una distribución a la distribución teórica llamada curva normal o campana de Gauss Traducción de estadísticas al inglés Moda ± Mode Mediana . Median Media ± Mean Desviación estándar ± Standar devation Varianza ± Variance Máximo ± Maximum Mínimo ± Minimum Rango ± Range Asimetría ± Skewness Curtosis - Kurtosis Puntuaciones Z Son medidas que indican la dirección y el grado en que un valor individual de aleja de la media, en una escala de unidades de desviación estándar. Razón Es la relación entre dos categorías La razón de hombres a mujeres 60/30=2 Categoría | Frecuencia | Masculino | 60 | Femenino | 30 | Tasa Es la relación entre el número casos de una categoría y el número total de observaciones Tasa= Número de eventos/ Número total de eventos posibles Tasa= Número de nacidos vivos en la Cd/ Número de habitantes Tasa= 10,000/300,000X 1000=33.33 Es decir hay 33.33 nacidos vivos por cada 1000 Paso 4 Evaluar la confiabilidad y la validez lograda por el instrumento de medición Puede oscilar entre 0 nula confiabilidad y 1 máximo de confiabilidad. La confiabilidad de las escalas se calcula mediante diversos métodos:
Medida de estabilidad (test ± retest) Se calcula aplicando a los participantes la misma prueba dos veces y luego aplicando un coeficiente de correlación entre las puntuaciones de ambas aplicaciones. Método de formas alternativas o paralelas Se calcula a través de un coeficiente de correlación entre los resultados de dos pruebas supuestamente equivalentes. Se aplica en prueba - postprueba Método de mitades partidas. Se calcula por medio de un coeficiente de correlación entre las puntuaciones de las mitades del instrumento. La Validez La validez del contenido se obtiene al asegurarse que las dimensiones medidas por el instrumento sean representativas del universo o dominio de dimensiones de las variables de interés. La evidencia de validez de criterio se produce al correlacionar las puntuaciones de los participantes, con sus valores obtenidas en el criterio. Correlación implica asociar puntuaciones obtenidas por la muestra en dos o más variables. Paso 5 Analizar mediante pruebas estadísticas las hipótesis planteadas (Análisis estadístico inferencial) Se utiliza para probar hipótesis y estimar parámetros, se basa en la distribución muestral. Prueba de la hipótesis Consiste en probar si la hipótesis es congruente con los datos de la muestra Los resultados posibles serían: 1. Aceptar una hipótesis verdadera (decisión correcta) 2. Rechazar una hipótesis falsa (decisión correcta) 3. Aceptar una hipótesis falsa (error beta o tipo II) 4. Rechazar una hipótesis verdadera(error alfa o tipoI) Distribución muestral Una distribución muestral es un conjunto de valores sobre una estadística calculada de todas las muestras posibles de una población. Nivel de significancia Es un nivel de la probabilidad de equivocarse y que fija un manera a priori del investigador Debe partirse de los siguientes supuestos: 1.- La distribución poblacional de la variable dependiente es normal 2.- El nivel de medición de la variable dependiente es por intervalos o razón 3.- Cuando las poblaciones en cuestión poseen una dispersión similar en sus distribuciones Análisis paramétricos Coeficiente de correlación Pearson Es una prueba estadística para analizar le relación entre 2 variables medidas en un nivel por intervalos o de razón. Prueba t Es una prueba estadística para evaluar si 2 grupos difieren entre sí de manera significativa respecto a sus medias. Se utiliza para 2 grupos Prueba de diferencia de proporciones Es una prueba estadística para analizar si 2 proporciones difieren significativamente entre sí.
Análisis de varianza Es una prueba estadística para analizar si mas de 2 grupos difieren significativamente entre sí en cuanto a sus medias y varianzas. Se utiliza para 3, 4 o mas grupos. Prueba de diferencia de proporciones Es una prueba estadística para analizar si 2 proporciones difieren significativamente entre sí. Análisis No paramétricos Debe partirse de las siguientes consideraciones: 1.- No requieren de presupuestos acerca de la forma de la distribución poblacional 2.- No necesariamente tienen que estar medidas en intervalos o de razón, pueden analizar datos nominales u ordinales. Chi cuadrada Es una prueba estadística para evaluar hipótesis entre dos variables categóricas. Se utiliza para probar hipótesis correlacionales. Coeficientes de Spearman y Kendall Son medidas de correlación para variables en un nivel de medición ordinal; los individuos u objetos de la muestra pueden ordenarse por rangos. Coeficientes para tabulaciones cruzadas Adicionales a la Chi cuadrada, existen estos coeficientes para evaluar si las variables incluidas en la tabulación cruzada están correlacionadas. Paso 6 Realizar análisis adicionales Después de realizar nuestro análisis, es posible que decidamos agregar otros análisis o pruebas extras para confirmar tendencias y evaluar los datos desde diferentes ángulos. Paso 7 Preparar los resultados para presentarlos Se recomienda, una vez que se obtengan los resultados de los análisis estadísticos, las siguientes actividades: 1.- Revisar cada resultado Análisis general y específico de valores resultantes, tablas, diagramas, cuadros y gráficas. 2.- Organizar los resultados Primero los descriptivos, por variable, luego los resultados relativos a la confiabilidad y la validez y posteriormente los inferenciales. 3.- Cotejar los diferentes resultados Su congruencia y en caso de inconsistencia lógica volverlos a revisar. 4.- Priorizar la información más valiosa 5.- Copiar las tablas en el programa con el cual se elaborará el reporte Vaciar en procesadores de texto o uno para presentaciones como word o power point, las tablas elaboradas por programas como SPSS o Minitab. 6.- Comentar o describir brevemente La esencia de los análisis, valores, tablas, diagramas, gráficas. 7.- Volver a revisar los resultados. 8.- Y, finalmente, elaborar el reporte de investigación. Conclusiones Podemos concluir diciendo que hemos visto las diferentes fases del análisis de los datos cuantitativos.
Se han visto superficialmente algunos programas para elaborar el análisis de los datos en la investigación. Hemos trabajado con las estadísticas necesarias para elaborar el análisis de los datos. Para la probación de hipótesis existen métodos paramétricos y no paramétricos. Capitulo 7 Recopilación de datos y estadística descriptiva. Salkind El proceso de recopilación de datos implica cuatro pasos: * La construcción de formatos para recabar la información. * La codificación que sirve para representar esos datos. * La recopilación en si de los datos * Su asentamiento en el formato de recopilación de datos. * La codificación: Los datos se codifican cuando se transfieren del formato de recopilación original a un formato que se presta al análisis de los datos. * La única regla para codificar datos es usar códigos lo mas sencillos posibles. Los diez mandamientos de la recopilación de datos: 1.- Cuando comience a considerar un procesos de investigación piense desde entonces el tipo de datos que se tendrá que recopilar para contestar la pregunta. 2.-Hay pensar tambien de donde los vamos a obtener. 3.-Asegurarse que el formato de recopilacion de datos sea facil de usar. 4.-Preparar una copia del archivo de datos. 5.-No depender de otras personas para recopilar los datos. 6.-Hacer un programa detallado de cuando y donde recabara sus datos. 7.-Cultivar las posibles fuentes de su grupo de sujetos. 8.-Tratar de contactar a los sujetos que faltaron a la entrevista. 9.-Nunca desechar los datos originales. 10.-Obedecer los otros nueve. El análisis de los datos se puede realizar por medio de la estadística descriptiva y la inferencial * El primer paso del análisis de los datos es describirlos, o la distribución de puntajes. * La comparacion de distribucion de puntajes se puede realizar por medio de las Medidas de tendencia central. Hay tres tipos de medidas de tendencia central: La media, mediana y la moda. * La media es la sumatoria de un conjunto de puntajes dividida entre el numero de puntajes. * La mediana es el puntaje de una distribucion por arriba de la cual se encuentra la mitad de los puntajes. * La moda es el puntaje que ocurre con mayor frecuencia. Medidas de variabilidad. La variabilidad es el grado de dispersión que caracteriza a un grupo de puntajes y es el grado en que un conjunto de puntajes difiere de alguna medida de tendencia central generalmente la media. Las medidas de la variabilidad son: El intervalo que es la diferencia entre el puntaje mas alto con el mas bajo. La desviacion estandar: Es la cantidad promedio en que cada uno de los puntajes individuales varia respecto a la media del conjunto de puntajes. Conclusiones
La etapa del análisis de los datos se realiza en cuatro pasos. Se mencionaron los 10mandamientos para el análisis de los datos. Hemos conocido las tres medidas de tendencia que se manejan en el análisis de los datos. Estas estadísticas son: media, mediana y la moda. se conocieron las medidas de varianza del análisis de datos: intervalo y la desviación estandar
Capitulo 8 Métodos de Investigación Salkind La estadística descriptiva sirve para describir las características de una muestra, la estadística inferencial sirve para inferir algo acerca de la población de la cual se extrajo la muestra. La significancia estadística es el grado de riesgo que estamos dispuestos a asumir de que rechazaremos un hipótesis nula cuando en realidad es cierta. Al riesgo que corremos al cometer este tipo de error se le conoce como error tipo 1 y tipo 2. Al error tipo 1 se le han asignado ciertos niveles convencionales que es el 0.1 y el 0.5. Y el error tipo 2 es aceptar una hipótesis nula falsa. Pruebas de Significancia Nos ayudan a tomar decisiones acerca de las poblaciones. Se basan en el hecho de cada que cada tipo de hipótesis nula tiene asociado un tipo de estadistica especifico. Pasos a seguir para una prueba estadística 1. Expresion de la hipótesis nula. 2. Establecer el nivel de riesgo asociado a la hipótesis nula. 3. Selección de la prueba estadistica apropiada. 4. Calculo del valor de la prueba estadistica. 5. Determinacion del valor requerido para rechazar la hipótesis nula. 6. Comparacion del valor obtenido con el valor critico 7. Si el valor obtenido es mas extremo que el valor critico no es posible aceptar la hipótesis nula. 8. Si el valor no excede el valor critico la hipótesis nula es la mas atractiva. Prueba T para medidas independientes Es una prueba inferencial de la significancia de la diferencia entre dos medias basadas en dos grupos independientes. Algunas pruebas de significancia son: * Prueba t para muestras independientes. * Prueba t para muestras dependientes. * Analisis de varianza Técnicas para evaluar una variable dependiente * Análisis de varianza multivariado:Es una técnica avanzada que determina la ocurrencia de diferencias por grupo en mas de una variable dependiente.
* Análisis factorial: Permite al investigador reducir el numero de variables que representan un constructo en particular y luego usar los llamados puntajes de factores como variables dependientes. Conclusiones Hemos conocido los métodos para el análisis de datos. Estos métodos son: pruebas de significancia, pruebas t, para muestras independientes y Prueba t para muestras dependientes. Se conocieron los pasos para una prueba estadística.