SPSS
INEI PRUEBA DE BONDAD DE AJUSTE
La prueba de bondad de ajuste se aplica en diseños de investigación en los que se estudia a un único grupo. La prueba compara la distribución de frecuencias observada (Fo) de una variable usualmente cualitativa, pero que también puede ser cuantitativa, con la distribución de frecuencias de la misma variable medida en un grupo de referencia. El procedimiento de la prueba implica el cálculo de una distribución esperada (Fe) en el grupo estudiado, usando como punto de partida a la distribución de la variable en el grupo de referencia. El propósito de la prueba es averiguar si existen diferencias estadísticamente significativas entre la distribución observada (Fo) y la distribución esperada (Fe). En la prueba se plantean las siguientes hipótesis estadísticas: Hipótesis estadística nula: Ho: Fo = Fe Hipótesis estadística alterna: Ha: Fo ≠ Fe El procedimiento de la prueba incluye el cálculo de la medida de resumen llamada Chi cuadrada. El rechazo de la Ho ocurre cuando el valor calculado con los datos resulta mayor que el valor crítico de dicha medida contenido en una tabla llamada Valores Críticos de Chi cuadrada. En el caso de que el valor de Chi cuadrada calculada sea igual o menor al de Chi cuadrada crítica se dice que no se rechaza a la Ho y, por tanto, se concluye que la Fo es semejante a la Fe. En otras palabras, se dice que ambas distribuciones se ajustan bien; de ahí el nombre de la prueba: bondad de ajuste. PRUEBAS NO PARAMETRICAS Los contrastes o pruebas de bondad del ajuste tienen como objeto decidir si puede aceptarse la hipótesis de que una muestra dada procede de una población con una distribución de probabilidad totalmente especificada en la hipótesis nula. Estos contrastes se basan en la comparación de las frecuencias observadas en la muestra con aquellas que cabría esperar si la hipótesis nula fuera cierta. La hipótesis nula se rechaza si existe una diferencia significativa entre las frecuencias observadas y las esperadas. En este tipo de contrastes la distribución de probabilidad del estadístico de prueba es independiente de la postulada en la hipótesis nula y depende sólo del tamaño de la muestra o del número de clases en que se agrupa la variable. PRUEBA CHI-CUADRADO Esta prueba puede utilizarse incluso con datos medibles en una escala nominal. La hipótesis nula de la prueba Chi-cuadrado postula una distribución de probabilidad totalmente especificada como el modelo matemático de la población que ha generado la muestra. Para realizar este contraste se disponen los datos en una tabla de frecuencias. Para cada valor o intervalo de valores se indica la frecuencia absoluta observada o empírica (Oi). A continuación, y suponiendo que la hipótesis nula es cierta, se calculan para cada valor o intervalo de valores la frecuencia absoluta que cabría esperar o frecuencia esperada (Ei=n·pi , donde n es el tamaño de
Ing. Mary Isabel Pezo Carlotto
SPSS
INEI
la muestra y pi la probabilidad del i-ésimo valor o intervalo de valores según la hipótesis nula). El estadístico de prueba se basa en las diferencias entre la Oi y Ei y se define como:
Este estadístico tiene una distribución Chi-cuadrado con k-1 grados de libertad si n es suficientemente grande, es decir, si todas las frecuencias esperadas son mayores que 5. En la práctica se tolera un máximo del 20% de frecuencias inferiores a 5. Si existe concordancia perfecta entre las frecuencias observadas y las esperadas el estadístico tomará un valor igual a 0; por el contrario, si existe una gran discrepancia entre estas frecuencias el estadístico tomará un valor grande y, en consecuencia, se rechazará la hipótesis nula. Así pues, la región crítica estará situada en el extremo superior de la distribución Chi-cuadrado con k-1 grados de libertad. Para realizar un contraste Chi-cuadrado la secuencia es: Menú Analizar- Pruebas no paramétricas- Chi-cuadrado
En el cuadro de diálogo Prueba chi-cuadrado se indica la variable a analizar en Contrastar variables. En Valores esperados se debe especificar la distribución teórica activando una de las dos alternativas. Por defecto está activada ‘Todas las categorías iguales’ que recoge la hipótesis de que la distribución de la población es uniforme discreta. La opción Valores requiere especificar uno a uno los valores esperados de las frecuencias relativas o absolutas correspondientes a cada categoría, introduciéndolos en el mismo orden en el que se han definido las categorías. El recuadro Rango esperado presenta dos opciones: por defecto está activada Obtener de los datos que realiza el análisis para todas las categorías o valores de la variable; la otra alternativa, Usar rango especificado, realiza el análisis sólo para un determinado rango de valores cuyos límites Inferior y Superior se deben especificar en los recuadros de texto correspondientes. PRUEBA BINOMIAL
Ing. Mary Isabel Pezo Carlotto
SPSS
INEI
La prueba binomial analiza variables dicotómicas (las que permiten solo dos opciones, por ejemplo blanco o negro, positivo o negativo, afirmativo o negativo, son parte de las variables llamadas Cualitativas) y compara las frecuencias observadas en cada categoría con las que cabría esperar según una distribución binomial de parámetro especificado en la hipótesis nula La secuencia para realizar este contraste es: Menú analizar- Pruebas no paramétricas - Binomial
En el cuadro de diálogo se debe seleccionar la variable en Contrastar variables e indicar la proporción postulada en la hipótesis nula en Contrastar proporción.
PRUEBA DE RACHAS El contraste de rachas permite verificar la hipótesis nula de que la muestra es aleatoria, es decir, si las sucesivas observaciones son independientes. Este contraste se basa en el número de rachas que presenta una muestra. Una racha se define como una secuencia de valores muestrales con una característica común precedida y seguida por valores que no presentan esa característica. Así, se considera una racha la secuencia de k valores consecutivos superiores o iguales a la media muestral (o a la mediana o a la moda, o a cualquier otro valor de corte) siempre que estén precedidos y seguidos por valores inferiores a la media muestral (o a la mediana o a la moda, o a cualquier otro valor de corte). El número total de rachas en una muestra proporciona un indicio de si hay o no aleatoriedad en la muestra. Un número reducido de rachas (el caso extremo es 2) es indicio de que las observaciones no se han extraído de forma aleatoria, los elementos de la primera racha proceden de una población con una determinada característica (valores mayores o menores al punto de corte) mientras que los de la segunda proceden de otra población. De forma idéntica un número excesivo de rachas puede ser también indicio de no aleatoriedad de la muestra. Si la muestra es suficientemente grande y la hipótesis de aleatoriedad es cierta, la distribución muestral del número de rachas, R, puede aproximarse mediante una distribución normal de parámetros:
Ing. Mary Isabel Pezo Carlotto
SPSS
INEI
Donde n1 es el número de elementos de una clase, n2 es el número de elementos de la otra clase y n es el número total de observaciones.
La secuencia para realizar este contraste es: Menú Analizar- Pruebas no paramétricas - Rachas El cuadro de diálogo que se abre es el siguiente:
En Contrastar variables se traslada la variable y en Punto de corte se indica el o los puntos de corte que se quieren considerar.
PRUEBA KOLMOGOROV-SMIRNOV PARA UNA MUESTRA El contraste Kolmogorov-Smirnov compara los valores de las funciones de distribución de la muestra y de la población que se ha postulado en la hipótesis nula. El estadístico de prueba z se calcula en función de la máxima diferencia entre ambas funciones: siendo Fn(x) la función de distribución muestral y Fo(x) la función teórica correspondiente a la población especificada en la hipótesis nula. La secuencia para realizar este contraste es: Menu Analizar – Pruebas no paramétricas – K-S de 1 muestra
Ing. Mary Isabel Pezo Carlotto
SPSS
INEI
Se indica la variable trasladándola a Contrastar variables y se selecciona(n) la Distribución de contraste que puede ser Normal, Uniforme, Poisson o Exponencial.
CONTRASTES DE NORMALIDAD Un caso específico de ajuste a una distribución teórica es la correspondiente a la distribución normal. Este contraste se realiza para comprobar si se verifica la hipótesis de normalidad necesaria para que el resultado de algunos análisis sea fiable. Para comprobar la hipótesis nula de que la muestra ha sido extraída de una población con distribución de probabilidad normal se puede realizar un estudio gráfico y/o analítico. PRUEBA DE KOLMOGOROV-SMIRNOV Cuando la prueba Kolmogorov-Smirnov kolmogorov se aplica para contrastar la hipótesis de normalidad de la población, el estadístico de prueba es la máxima diferencia:
Siendo Fn(x) la función de distribución muestral y Fo(x) la función teórica o correspondiente a la población normal especificada en la hipótesis nula. La distribución del estadístico de Kolmogorov-Smirnov es independiente de la distribución poblacional especificada en la hipótesis nula y los valores críticos de este estadístico están tabulados. Si la distribución postulada es la normal y se estiman sus parámetros, los valores críticos se obtienen aplicando la corrección de significación propuesta por Lilliefors.
Ing. Mary Isabel Pezo Carlotto
SPSS
INEI
EJEMPLO Ejemplo 1. Con los datos correspondientes a la variable Trans de la encuesta Enctrans.sav y con referencia a los encuestados que viven en Lima, se quiere comprobar si su distribución en cuanto al tipo de transporte utilizado se adapta a los resultados de un estudio realizado por el Ayuntamiento de Lima, que son los siguientes: el 40% de los desplazamientos al trabajo se realizan en metro; el 30% en autobús; el 20% en transporte privado y 10% otros medios. La distribución de frecuencias de la variable Trans es:
En este caso para realizar el contraste Chi-cuadrado es necesario definir las cuatro categorías contempladas en la hipótesis nula. Para ello, se crea una nueva variable, Trans2, a partir de Trans con las siguientes categorías: Metro, Bus, Privado (que resultará de agregar Coche y Moto) y Otros (que agrupará Tren y Otros).Una vez creada la nueva variable, con la secuencia Analizar > Pruebas no paramétricas > Chi-cuadrado se llega al cuadro de diálogo en donde se selecciona la variable Trans2 y se introduce en Valores esperados las frecuencias relativas de cada categoría según la hipótesis nula correctamente ordenadas: 0,4 para la categoría 1; 0,3 para la 2; 0,2 para la 3 y 0,10 para la 4. Al aceptar se obtienen los siguientes resultados:
Ing. Mary Isabel Pezo Carlotto
SPSS
INEI
Como todas las categorías presentan frecuencia esperada mayor que 5 se puede aplicar el contraste Chi-cuadrado sin modificar el número de categorías. El valor del estadístico Chicuadrado permite rechazar la hipótesis nula para niveles de significación superiores al 2,7%. Así pues, al 5% de significación se llega a la conclusión de que la distribución del tipo de transporte que utilizan los alumnos no se adapta a la publicada por el ayuntamiento.
Ejemplo 2. Con la información correspondiente a la variable Pla de la base de datos Encinf.sav, se desea comprobar si la valoración que realizan los alumnos del plan de estudios sigue una distribución uniforme. Para realizar la prueba de bondad de ajuste Kolmogorov-Smirnov la secuencia a seguir es Analizar > Pruebas no paramétricas> K-S de 1 muestra. Se selecciona la variable Pla de la base de datos Encinf.sav y se indica que la Distribución de contraste es uniforme. Los resultados son:
A la vista de los resultados se concluye que no se puede rechazar la hipótesis de que la valoración asignada por este grupo de alumnos al plan de estudios es uniforme para cualquier nivel de significación inferior al 7,1%.
Ing. Mary Isabel Pezo Carlotto
SPSS
INEI
Ejemplo 3. Con la base de datos Encinf.sav, se desea comprobar si la variable gasto presenta una distribución normal. Para realizar la prueba de normalidad la secuencia a seguir es Analizar> Estadísticos Descriptivos> Explorar. Se selecciona la variable Gasto y en el cuadro de diálogo correspondiente a los Gráficos se activa la opción Gráficos con pruebas de normalidad. Los resultados obtenidos son:
El estadístico de prueba Kolmogorov-Smirnov con la correción de Lilliefors presenta un nivel de significación igual a 0,000. Enconsecuencia se rechaza la hipótesis de normalidad. El gráfico QQ normal ratifica la conclusión anterior, ya que los valores observados no se situan sobre la recta esperada bajo el supuesto de normalidad.
Ing. Mary Isabel Pezo Carlotto