Introducción al Análisis de Varianza ©Pedro Morales Vallejo Universidad Pontificia Comillas Facultad de Ciencias Humanas y Sociales (última revisión 28 de Febrero de 2009)
INDICE
1. Finalidad del análisis de varianza........................................ varianza................................................................ .................................. .......... 2. Por qué utilizamos el análisis de varianza en vez de la t de Student..................... Student..................... 3. Qué comprobamos mediante el análisis de varianza: relación entre la diferencia entre varianzas y la diferencia entre medias.............. medias .............. 4. Conceptos y términos propios del análisis de varianza........................................ varianza.......................................... 5. Cómo podemos analizar (o descomponer) la varianza total.................................. total.................................. 6. Qué Qué comprobamos comprobamos con el análisis análisis de varianza............................... varianza...................................................... ....................... 7. Cómo comparamos dos varianzas: la razón F .................................................. ....................................................... ..... 8. Explicación alternativa: relación entre variables cualitativas o criterios de clasificación clasificación (variable independiente) independiente) y variables cuantitativas (variable dependiente).......................................................................................................... 9. Diversos modelos de análisis de varianza .................................................. ............................................................ .......... 10. Cuestiones metodológicas metodológicas previas........................................ previas................................................................. ............................... ...... 10.1. Requisitos previos para utilizar el análisis de varianza............................. varianza ................................. 10.2. Tamaño de los grupos y pérdida de sujetos...................... sujetos .............................................. ........................... ... 10.3. Tipos de categorías de clasificación clasificación ................................................... ............................................................ ......... 11. Referencias bibliográficas bibliográficas ............................................... ........................................................................ .................................... ...........
3 4 5 9 10 13 14 16 18 20 20 22 23 25
2
Introducción al Análisis de Varianza
3
1. Finalidad del análisis de varianza
El análisis de varianza lo vamos a utilizar para verificar si hay diferencias estadísticamente significativas entre medias cuando tenemos más de dos muestras o grupos en el mismo planteamiento. En estos casos no utilizamos la t de Student que
solamente es un procedimiento válido cuando comparamos únicamente las medias de dos muestras. Como explicaremos más adelante, cuando tenemos más de dos muestras y comparamos las medias de dos en dos suben las probabilidades de error al rechazar la hipótesis de no diferencia porque queda suficientemente explicada por factores aleatorios (error muestral). En primer lugar recordamos qué es la varianza y qué nos cuantifica . La fórmula de la varianza ya nos es conocida; es la desviación típica elevada al cuadrado: Σ (X − M)2 2 [1] σ = N Utilizamos el símbolo X para designar las puntuaciones individuales, y el símbolo M para designar la media aritmética de la muestra; σ va a ser el símbolo de la desviación típica de la muestra si no se indica expresamente que se trata del símbolo de la desviación típica de la población 1. El denominador será N-1 si queremos obtener una estimación de la varianza de la población. Esto es lo que haremos habitualmente en el cálculo de las varianzas propias del análisis de varianza . Una varianza grande indica que hay mucha variación entre los sujetos, que hay mayores diferencias individuales con respecto a la media; una varianza pequeña nos indica poca variabilidad entre los sujetos, diferencias menores entre los sujetos. La varianza cuantifica todo lo que hay de diferente entre los sujetos u observaciones. Como iremos viendo la varianza se puede descomponer en varianzas parciales y a este descomponer la varianza le denominamos análisis de varianza. La varianza expresa variación, y si podemos descomponer la varianza, podemos aislar fuentes de variación. Cuando de los sujetos tenemos varios tipos de información, el análisis de varianza nos va a responder a esta pregunta ¿De dónde vienen las diferencias?
1 Utilizamos M como símbolo de la media aritmética (no X ) y σ (y no s) como símbolo de la desviación típica de la muestra (dividiendo por N, no por N -1); por razones de simplicidad y así lo vemos además en otros autores (como Guilford y Fruchter, 1978, que reconocen la falta de una práctica común en el uso de estos símbolos). Es por otra parte frecuente referirse a la desviación típica como sigma, el nombre del símbolo. En muchas calculadoras con programación estadística de uso frecuente se utilizan los símbolos σn y σn-1 para referirse a la desviación típica de la muestra (dividiendo por N) y de la población (dividiendo por N - 1) respectivamente y son posiblemente los símbolos más claros. Otros autores (como Spatz, 1993) prefieren S (mayúscula) para designar la desviación típica de la muestra y s (minúscula) para la desviación típica de la población; otros en cambio (Rosenthal, 1987, 1991; Rosenthal y Rosnow, 1991) utilizan S para la población y σ para la muestra. Los símbolos σ para la desviación típica de la población y s para la de la muestra (la práctica más común) son originarios de William S. Gossett (Pearson y Kendall, Eds., 1978) al que debemos también la distribución de la t de Student. Algún autor prescinde casi de todo tipo de símbolos (Guéguen, 1997). En nuestro caso el símbolo ( σ) no se presta a confusión porque prácticamente siempre se trata de la desviación típica de la muestra a no ser que indiquemos expresamente que se trata de la desviación típica de la población; en este caso también utilizaremos ocasionalmente el símbolo σn-1 para referirnos a la desviación típica de la población y σn para designar la desviación típica de la muestra.
Introducción al Análisis de Varianza
4
El análisis de varianza 2 no constituye un método o procedimiento único; según los diseños y datos disponibles existen diversos modelos de análisis de varianza. En esta introducción nos referiremos al análisis de varianza para varias muestras independientes, independientes, y más concretamente al análisis de varianza para sólo dos muestras independientes (aunque en este caso solemos utilizar la t de Student) porque es de comprensión más sencilla. La misma explicación básica se puede extrapolar a otras situaciones (más de dos muestras independientes, más de dos muestras relacionadas, diseños factoriales, etc., que iremos viendo más adelante). 2. Por qué utilizamos el análisis de varianza en vez de la t de Student
Cuando tenemos dos muestras y queremos comprobar si difieren significativamente significativamente (si proceden de la misma población con una única media) utilizamos la t de Student. Cuando tenemos más de dos grupos utilizamos el análisis de varianza: ¿No podríamos comparar todos los grupos de dos en dos con la t de Student? A primera vista parecería lo más lógico, sin embargo no se hace así por una serie de razones que exponemos a continuación. 1º La razón más importante (y suficiente) para no utilizar la t de Student con más de dos grupos es que, al hacer muchas comparaciones de dos en dos, aumenta la probabilidad de que algunas diferencias resulten significativas significativas por azar y entonces cabe la posibilidad de afirmar que hay una diferencia (de no aceptar la hipótesis nula) cuando realmente no la hay. Si por ejemplo tenemos tres grupos podríamos hacer tres comparaciones: entre el 1º y el 2º, entre el 1º y el 3º y entre el 2º y el 3º. Operando con un nivel de confianza de α = .05, la probabilidad de encontrar al menos una diferencia significativa por azar es de hecho del 9.75% y no del 5% (no es importante el entender ahora el por qué, algo aclaramos en el anexo I). 2º Otra razón adicional es que una prueba estadística basada en todos los datos utilizados simultáneamente, es más estable que la prueba o análisis que parcializa los datos y no los examina todos juntos. El error típico (oscilaciones aleatorias) es menor cuando el número de sujetos es mayor, como sucede cuando se analizan todos los datos de todos los grupos simultáneamente. En principio es preferible utilizar un método de análisis global que abarque todos los datos que se quieren examinar. Aun así, si se tiene como hipótesis previa a la recogida de datos que dos de los grupos difieren estadísticamente, estadísticamente, es legítimo utilizar en ese caso y para esos dos grupos la t de Student. Pero lo normal es que el análisis de varianza implique hipótesis relativas a todos los datos tomados simultáneamente, simultáneamente, en un único planteamiento. planteamiento. 3º El ahorro de tiempo es otra razón que a veces se aduce, aunque en sí misma no es una razón válida 3. El número de comparaciones de dos en dos de k elementos es igual a k (k-1)/2; con seis grupos habría que hacer 15 comparaciones y con 10 grupos subirían a 45. El análisis de varianza nos dice de entrada si hay o no hay diferencias significativas entre pares de medias, y si no las hay no necesitamos hacer más análisis. En cualquier caso no sería legítimo comparar todas las medias de dos en dos, en un mismo planteamiento, planteamiento, por las razones dichas antes.
2 También denominado ANOVA; del inglés ANalysis Of VAriance, Of VAriance, y ANVA en español . 3 Además la importancia que podría suponer el trabajo extra es nula utilizando programas de ordenador. Introducción al Análisis de Varianza
5
3. Qué comprobamos mediante el análisis de varianza: relación entre la diferencia entre varianzas y la diferencia entre medias
Con la t de Student comprobamos si existe una diferencia estadísticamente significativa entre las medias de dos muestras o grupos; es decir, comprobamos si las dos medias difieren más de lo que consideramos normal cuando las muestras proceden de la misma población o, lo que es lo mismo, si las medias no difieren entre sí más de lo que normal que difieran los sujetos entre sí. Con el análisis de varianza comprobamos si existen diferencias estadísticamente significativas entre más de dos grupos, es decir, comprobamos si las diversas muestras podemos considerarlas muestras aleatorias de la misma población. Es el método apropiado cuando tenemos más de dos grupos en el mismo planteamiento; en vez de comparar las medias de dos en dos, utilizamos el análisis de varianza (y ya veremos por qué). Cuando tenemos solamente dos muestras también podemos utilizar el análisis de varianza para comparar dos muestras en vez de la t de Student, pero con sólo dos muestras es más cómodo utilizar los procedimientos procedimientos tradicionales del contraste de medias (t de Student). Lo que directamente comprobamos en el análisis de varianza es si entre dos o más varianzas existen diferencias estadísticamente significativas, pero lo que realmente deseamos comprobar es si hay diferencias entre una serie de medias. Lo primero que hay que comprender, al menos de una manera simple e intuitiva, es que al comprobar si hay diferencia entre dos varianzas (enseguida veremos de qué dos varianzas estamos hablando), hablando), llegamos a una conclusión sobre si hay diferencias entre las medias. Vamos a verlo en un ejemplo sencillo, con sólo dos muestras de seis sujetos cada una, representadas en la figura 1. Media de A: 4
Media Total: 6.5
Media de B: 9
10
10 8
5
5 3
10 8
8
5 3
3
Muestra A
Muestra B
Figura 1 En la figura 1 tenemos representados dos grupos o muestras, muestra A y muestra B, cada una con su media. La media del grupo A es M a = 4 y la media del grupo B es M b = 9. Si consideramos a todos los sujetos como pertenecientes a un único grupo, A+B, tenemos que la media total es M a+b= (Ma + M b)/2 = 6.5.
Introducción al Análisis de Varianza
6
Este considerar a todos los sujetos como hipotéticamente pertenecientes a una única muestra es importante para entender el procedimiento de análisis de varianza; porque es esta varianza del grupo total la que vamos a analizar o descomponer. En la figura 2 tenemos la representación de los mismos sujetos de los dos grupos de la figura 1, pero ahora unidos gráficamente en un solo grupo.
10B
10B
8B
5A
8B
5A 3A
10B 8B
5A 3A
3A
muestra A y muestra B unidas en un solo grupo
Figura 2 Cuando pensamos en términos del análisis de varianza la imagen de la figura 1 debería ser la de la figura 2, donde tenemos un solo grupo integrado por los dos grupos iniciales: es la varianza de este nuevo grupo la que vamos a analizar o ‘descomponer’ . De cada sujeto conservamos la información sobre su grupo inicial de pertenencia (A o B). B) . Observando las diferencias entre los sujetos de este grupo total podemos preguntarnos: ¿De dónde vienen las diferencias en este grupo total formado por las muestras A y B? ¿De que los sujetos son muy distintos entre sí dentro de cada grupo? No, en este ejemplo los sujetos dentro de cada grupo tienen un grado semejante de homogeneidad o variabilidad: dentro de cada grupo las diferencias entre sujetos (las varianzas) son iguales (si nos fijamos en la figura 1, vemos que en ambos grupos las diferencias entre cualquier par de sujetos o son igual a 0 o son igual a 2). Lo que sucede es que las medias son distintas: las medias de los grupos difieren entre sí más que los sujetos entre sí dentro de cada grupo . Si calculamos la varianza dentro de cada uno de los dos grupos (representados en las figuras 1 y 2), veremos que su valor es igual a 1; en cambio si calculamos la varianza entre los grupos (utilizando las dos medias como si se tratara de datos de dos sujetos, o utilizando los datos de todos los sujetos, pero asignando a cada uno la media de su grupo) veremos que la varianza es igual a 6.25: es mayor la varianza ( diferencias entre ) de los grupos que la de los sujetos. La media total ((4+9)/2) es de 6.5; las medias de cada grupo se apartan más de la media total que los sujetos de su propia media. Y ésta será la conclusión importante: Si las medias entre sí difieren más que los sujetos entre sí, podemos concluir que las medias son distintas.
Dicho de otra manera, si las medias difieren entre sí más que los sujetos entre sí, concluiremos que las medias pertenecen a muestras que proceden de poblaciones distintas con distinta media; hay una variabilidad mayor entre las medias que entre los sujetos. Introducción al Análisis de Varianza
7
En la figura 3 tenemos un caso distinto, con otros dos grupos de seis sujetos. Los dos grupos tienen idéntica media, no difieren en cuanto grupos, pero entre los sujetos, dentro de cada grupo, sí hay diferencias. diferencias. Media de A: 6
Media Total: 6
Media de B: 6
8
8
8
7 6
6
6
6
5 4
4
Muestra A
4
Muestra B
Figura 3 Uniendo ambos grupos, podríamos calcular la varianza total, y preguntarnos de nuevo: ¿De dónde viene esa varianza (esas diferencias)? diferencias)? ¿De que los grupos son distintos, con media distinta, como en el caso anterior? ¿O las diferencias en el grupo total vienen simplemente de que los sujetos dentro de cada grupo son distintos? En este caso las diferencias no vienen de diferencias entre los grupos, que tienen idéntica media, sino de que los sujetos dentro de cada grupo son muy distintos. Vamos a suponer que estas puntuaciones son de autoestima, y que los dos grupos pertenecen a dos aulas distintas de alumnos. Si comprobamos que la varianza o diversidad dentro de los grupos es mayor, o más o menos igual, que la varianza o diversidad entre los grupos, nuestra conclusión sería que, por lo que respecta a la autoestima, estamos ante un único grupo, o ante dos muestras que representan a la misma población. La hipótesis de dos grupos, o de dos muestras procedentes de poblaciones distintas con distinta media en autoestima, no se sostendría. Podemos imaginar un ejemplo todavía más sencillo: tenemos dos grupos, uno de enanos y otro de gigantes: Cada grupo tiene su media en altura; la media de los gigantes es mayor que la media de los enanos. Dentro de cada grupo hay también diferencias; no todos los enanos son igualmente bajitos ni todos los gigantes son igualmente altos. Pero ¿cuál sería nuestra conclusión si comprobamos que la diferencia entre las medias de los gigantes y de los enanos es más o menos igual a las diferencias que podemos encontrar entre los sujetos dentro de cada grupo?… Pues sencillamente que no tenemos ni enanos ni gigantes, la hipótesis es falsa, y por lo que respecta a estatura, podemos considerar que todos pertenecen al mismo grupo (o hablando con más propiedad, que todos pertenecen a la misma población por lo que respecta r especta a la altura). El razonamiento para explicar el análisis de varianza (consideramos que dos grupos son distintos cuando la variabilidad entre los grupos, entre las medias, es mayor que la variabilidad dentro de los grupos) es sencillo y además aplicable a otras situaciones al margen del análisis estadístico. Dentro de grupos oficialmente distintos en la percepción social (distintos en estatutos, ideario o cualquier otra variable) puede haber diferencias Introducción al Análisis de Varianza
8
mayores o iguales que las diferencias que se dan por ciertas entre los grupos; la única diferencia puede estar en el cartel utilizado para designarlos, sin base real para afirmar que en una determinada característica esos grupos tienen medias distintas y constituyen poblaciones distintas.
El término población se presta a cierta equivocidad en este contexto, sobre todo cuando hablamos de poblaciones distintas . En este caso llamamos poblaciones distintas a aquellas poblaciones (tal como nos vienen representadas por muestras concretas) cuyas medias difieren entre sí mas que los sujetos entre sí, aunque hablemos de poblaciones distintas con otros criterios meramente conceptuales o hipotéticos (por ejemplo los alumnos de la facultad A y los alumnos de la facultad B). Estos ejemplos reflejan una situación sencilla porque se trata solamente de dos grupos; los grupos podrían ser tres o más. Lo que importa ahora es ver que al analizar varianzas podemos llegar a conclusiones sobre si hay o no hay diferencias superiores a lo normal entre las medias de varias muestras, considerando como diferencias normales las que podemos encontrar entre los sujetos del mismo grupo. Otra manera de representar gráficamente lo que analizamos mediante el análisis de varianza la tenemos en la figura 4. Tenemos representados dos grupos: En un caso (caso A) las medias difieren entre sí más o menos lo mismo que los sujetos entre sí; podríamos concluir que ambas muestras proceden de la misma población. En el otro caso (caso B) las medias difieren entre sí más que los sujetos entre sí; en cambio en ambos grupos las diferencias entre los sujetos son de magnitud semejante; dentro de cada grupo la varianza es más o menos igual. Nuestra conclusión sería que los grupos son distintos, proceden de poblaciones con media distinta.
media
media media media
Caso A Las medias no difieren entre sí más de lo que los sujetos difieren entre sí; la varianza entre los grupos es más o menos igual a la varianza dentro de los grupos.
Caso B Las medias difieren entre sí más de lo que los suje difieren entre sí; la varianza entre los grupos es mu mayor que la varianza dentro de los grupos.
Figura 4 Expresado de otra manera: la diversidad o variación que encontramos dentro de los grupos (expresada por la varianza dentro de los grupos) es la diversidad normal, aleatoria; lo normal es que no todos los sujetos de una muestra sean idénticos en una determinada característica. Si las medias difieren entre sí (varianza entre grupos) más de lo que se puede esperar por azar (varianza dentro de los grupos), afirmaremos que las medias son distintas o, lo que es lo mismo (expresado en términos más formales), que las muestras proceden de poblaciones distintas con distinta media.
Introducción al Análisis de Varianza
9
Básicamente vamos a hacer esto: la varianza total (del gran grupo; el que resultaría si unimos a todos los sujetos en un único grupo) la vamos a descomponer en dos varianzas; a) Una varianza nos va a expresar las diferencias entre las medias (entre los grupos) b) Otra varianza nos va a expresar las diferencias o variabilidad entre los sujetos, dentro de los grupos (y que consideramos que es la variabilidad normal) Si la diversidad entre las medias (los grupos) es mayor que la diversidad entre los sujetos dentro de los grupos, es cuando afirmaremos que entre las medias hay diferencias superiores a lo que podemos encontrar por azar (que es lo que sucede dentro de los grupos). El análisis de varianza, analizando varios grupos simultáneamente, nos dirá si entre las medias de los grupos hay o no hay diferencias significativas (superiores a la variabilidad normal dentro de los grupos), pero en el caso de que haya diferencias entre los grupos, el mero análisis de varianza no dice directamente entre qué grupos está la diferencia; habrá después que comparar los grupos de dos en dos mediante procedimientos análogos (hay varios) a la t de Student, denominados contrastes posteriores. 4. Conceptos y términos propios del análisis de varianza
Una dificultad inicial que suele presentar el estudio del análisis de varianza es el uso de términos nuevos, por eso es útil familiarizarse con estos términos ya desde el principio. Realmente los conceptos no son nuevos, solamente pueden resultar relativamente relativamente nuevos los términos para designarlos. Cuando se cae en la cuenta de que se trata de lo que ya sabemos, desaparece la dificultad. dificultad. Σ (X-M)2 2 Recordamos la fórmula de la varianza: σ = N-1 Es decir, se trata de una razón o quebrado con un numerador y un denominador (que ahora es N-1, y no N simplemente, porque se trata de una estimación de la varianza de la población). A este numerador y denominador de la varianza nos vamos a ir refiriendo por separado utilizando los nuevos términos, que por otra parte no son arbitrarios y nos ayudarán a entender cómo se analiza o descompone la varianza. El numerador de numerador de la varianza o suma de cuadrados
La suma de las diferencias de todos los datos con respecto a la media, elevadas previamente al cuadrado [ Σ(X-M)2] es el numerador de la varianza. A este numerador se le denomina Suma de Cuadrados y su símbolo habitual es SC. No es raro encontrarse con el símbolo SS, que significa lo mismo pero en inglés (Sum of Squares). La expresión Σ(X-M)2 también suele simbolizarse Σx2 (la equis minúscula, x, es símbolo frecuente de X- M), y también se utiliza a veces Σd2 (d = diferencia con respecto a la media). 2 2 Σ (X - M ) Como la varianza de la muestra es σ = N podemos también expresar, y calcular, la suma de cuadrados [Σ(X-M)2] de esta forma (despejándola de la fórmula precedente): Introducción al Análisis de Varianza
10
Numerador de la varianza o Suma de Cuadrados:
Σ(X-M)2 = Nσ2
Esta expresión del numerador de la varianza o suma de cuadrados (Nσ2) es muy importante porque, como ya hemos indicado, facilita mucho el cálculo de la suma de estadística que nos da cuadrados cuando se dispone de una calculadora con programación estadística directamente el valor de la desviación típica ( σ), como iremos viendo al explicar los diversos métodos 4. La Suma de Cuadrados, o numerador de la varianza, se puede por lo tanto expresar o simbolizar de estas maneras: Nσ2
Numerador de la varianza o Suma de Cuadrados = SC = Σ(X-M)2 = Σx2 = Σd2 = El denominador de denominador de la varianza o grados de libertad
El denominador de la varianza es el número de sujetos menos uno, o, según los casos, el número de grupos o número de criterios de clasificación, menos uno (N-1, k-1, etc.). Restamos una unidad porque se trata de estimaciones estimaciones de la varianza en la población. El término habitual de este denominador es grados de libertad y ya nos resulta conocido. El símbolo habitual de los grados de libertad es gl (en inglés encontraremos el término degrees of freedom simbolizado como df). La varianza o cuadrados medios
La varianza es la razón entre la suma de cuadrados (numerador) y los grados de libertad (denominador). La varianza suele denominarse, en este contexto del análisis de varianza, Cuadrados Medios5, y se simboliza como CM (y a veces MS o Mean Squares en inglés). Utilizando los diversos símbolos y expresiones habituales, tendremos por lo tanto: Varianza: Σ( X-M) 2 Suma de Cuadrados SC 2 σ = = Cuadrados Medios = = CM = N-1 Grados de Libertad gl 5. Cómo podemos analizar (o descomponer) la varianza total
La varianza tiene una propiedad que la hace muy útil: puede descomponerse y esto permite numerosos análisis. En el ejemplo de dos (o más) muestras, la varianza total (uniendo las dos muestras en una sola) puede descomponerse en dos varianzas: 1) Una varianza que indica la variabilidad dentro de los grupos 2) Otra varianza que expresa la variabilidad (diferencias) (diferencias) entre los grupos (entre las medias).
4 Por otra parte el valor de la desviación típica, y otros datos, podemos encontrarlo ya calculado y no tenemos necesidad de conocer todos los datos de todos los sujetos para hacer un análisis de varianza; sobre esto mismo insistiremos en otras ocasiones porque el caer en la cuenta de esta posibilidad es sumamente práctico. Si disponemos solamente de estos datos, N, M y σ (y puede ser un caso frecuente) no podemos hacer un análisis de varianza con los programas habituales de ordenador (como el SPSS) y sí podemos hacerlo con una simple calculadora y en algunos programas de Internet que sólo requieren esos datos. 5 En EXCEL a la varianza o Cuadrados Medios se le denomina Promedio de los Cuadrados. Introducción al Análisis de Varianza
11
El que la varianza puede descomponerse podemos captarlo en un sencillo ejemplo gráfico. Es muy útil entenderlo aunque sólo sea de manera intuitiva y observando con detención la figura 5, para poder comprender toda la información que nos da el análisis de varianza. En la figura 5 tenemos representados esquemáticamente (y de manera muy exagerada para hacer más claro el esquema): 1. Dos grupos o muestras, cada uno con su media (M 1 y M2), 2. El grupo formado por las dos muestras con la media del total de ambos grupos (MT), 3. La puntuación (X) de un sujeto del primer grupo. Los puntos indicados en la figura 5 representan las dos medias, la media total y la puntuación X de un sujeto concreto del grupo 1 (y podría hacerse la misma representación con todos los sujetos de todos los grupos). M1 media del grupo 1
MT media total
M2 media del grupo 2
X= puntuación de un sujeto del grupo 1
X - MT = X - MT =
X
MT
(X - M1) +
(M1 - MT)
Figura 5 Si vamos a calcular la varianza del grupo total (el que resultaría al unir a todos los sujetos en un solo grupo) con media M T, ésta será la fórmula: 2 Σ[ X - M total ] 2 σ total = N -1 En el numerador: ∑(X - MT)2 (suma de cuadrados) donde X representa a todas y cada una de las puntuaciones pertenecientes a las dos (o más) muestras. La contribución a la varianza total de la puntuación del sujeto X señalado en la figura 5 y perteneciente al grupo 1, será: X- MT Esta diferencia de X con respecto a M T puede descomponerse en dos diferencias (tal como puede apreciarse gráficamente en la figura 5): X- MT = (X- M1) + (M1 - MT) La diferencia de cada sujeto con respecto a la media total es igual a: la diferencia entre esta puntuación y la media de su grupo (X- M1)
más
la diferencia entre la media de su grupo y la media total (M 1 - MT)
Observando la figura 5 se ve con facilidad cómo una diferencia se ha descompuesto en la suma de dos diferencias que expresan dos variabilidades: La variabilidad que hay dentro de los grupos: (X - M1) La variabilidad que hay entre los grupos: (M1 - MT)
Introducción al Análisis de Varianza
12
Esta operación la extendemos a todos los sujetos de todos los grupos, así por ejemplo: para un sujeto del grupo 1: X - MT = (X- M1) + (M1 - MT); para un sujeto del grupo 2: X - MT = (X- M2) + (M2 - MT); Para todos los sujetos tendríamos lo mismo, tal como se indica en la figura 6. Suma de Cuadrados total 2
[X - MT]
variabilidad total diferencias de los sujetos con respecto a la media total
=
=
Suma de Cuadrados dentro de los grupos
[X - Mn]
2
variabilidad dentro de los grupos diferencias de cada sujeto con respecto a la media de su grupo
+
+
Suma de Cuadrados entre los grupos
[Mn - MT]
2
variabilidad entre los grupos diferencias de cada media con respecto a la media total
Figura 6: cómo descomponemos la suma de cuadrados o numerador de la varianza Es decir, la suma de cuadrados, o numerador de la varianza, la hemos descompuesto en dos sumas de cuadrados: Una suma de cuadrados expresa las diferencias dentro de los grupos Otra suma de cuadrados expresa las diferencias entre los grupos. Algo que conviene tener claro es que la varianza, o la variabilidad, dentro de los grupos es independiente independiente de las diferencias o la variabilidad entre las medias: Si un sujeto del grupo 1 tiene una puntuación de X = 7 y la media de su grupo es M1 = 5, su contribución a la varianza o diversidad dentro de los grupos va a ser 7-5 = 2; Si un sujeto del grupo 2 tiene una puntuación de X = 15 y la media de su grupo es M2 = 13, su contribución a la varianza o diversidad dentro de los grupos va a ser 15-13 = 2. Es decir, ambos sujetos contribuyen en idéntica cantidad a la varianza dentro de los grupos, aunque las medias de sus grupos respectivos sean muy distintas. Esto es lo más importante (conceptualmente) (conceptualmente) de la varianza; son estas distancias las que cuantifican la diversidad expresada por la varianza; el denominador lo necesitamos porque en definitiva se trata de medias, para que unas sumas de cuadrados sean comparables con otras. En el denominador , con los grados de libertad, sucede lo mismo; los grados de libertad de la varianza total (N -1) se pueden descomponer en grados de libertad dentro de los grupos y grados de libertad entre los grupos, tal como está resumido en la figura 7.
Introducción al Análisis de Varianza
13
grados de libertad de la varianza total N -1 N = suma de todos los sujetos ( n si n es el tamaño de cada grupo)
=
grados de libertad de la varianza dentro de los grupos (N - k)
+
grados de libertad de la varianza entre los grupos (k - 1)
k = número de grupos En cada grupo los grados de libertad son n –1 (n = número de sujetos en cada grupo); si se trata de tres grupos, los grados de libertad son: (n1 -1)+(n2 -1)+(n3-1) o lo que es lo mismo, N- 3
o número de grupos menos uno
Figura 7: cómo descomponemos los grados de libertad o denominador de la varianza Si tenemos tres grupos de 10 sujetos cada uno (N=30), los grados de libertad de la varianza total serán gl = (30-1) = [30-3] + [3-1] = 29: [30-3]: grados de libertad dentro de los grupos = (10-1) + (10-1) + (10-1) (n-1 son los grados de libertad de cada grupo). [3-1]: grados de libertad entre los grupos: número de grupos menos uno. Esta explicación es literalmente válida para un análisis de varianza hecho con varias muestras independientes (dos o más de dos grupos de sujetos físicamente distintos), pero de manera análoga se puede aplicar a otros modelos de análisis de varianza. 6. Qué comprobamos con el análisis de varianza
Refiriéndonos al análisis de dos o más muestras independientes (y de manera análoga hacemos lo mismo en otros planteamientos), en la Hipótesis Nula se afirma que todas las muestras proceden de la misma población, y que por lo tanto sus medias no difieren significativamente; sus diferencias se explican adecuadamente por el error muestral (la variabilidad normal que podemos encontrar en cualquier grupo). Para comprobar esta hipótesis calculamos dos estimaciones de la varianza de esa supuesta misma población, siguiendo caminos distintos e independientes. Si realmente todas las muestras proceden de la misma población, y por lo tanto sus medias no difieren significativamente entre sí, ambos caminos nos llevarán al mismo resultado. Las dos estimaciones de la varianza (o variabilidad, σ2) de la población ya las hemos visto: 1º A partir de las medias de los grupos, de su variabilidad con respecto a la media total; como si asignáramos a cada sujeto la media de su grupo, prescindiendo de las diferencias individuales dentro de cada grupo. Es lo que denominamos varianza entre grupos; expresa lo que difieren unos grupos de otros. puntuaciones individuales con respecto a sus medias respectivas, 2º A partir de las puntuaciones dentro de cada grupo. Es lo que llamamos varianza dentro de los grupos; indica lo que difieren los sujetos entre sí dentro de cada grupo, prescindiendo de las diferencias entre medias, como ya hemos visto. Estas dos varianzas ( entre y dentro de los grupos), o Cuadrados Medios, las calcularemos calcularemos dividiendo en cada caso la Suma de Cuadrados por los Grados de Libertad. Si ambas estimaciones de la varianza son iguales o muy parecidas, podremos afirmar que todas las muestras proceden de la misma población (aceptamos, o no rechazamos, la Hipótesis Nula), y que por lo tanto no difieren significativamente significativamente entre sí. Introducción al Análisis de Varianza
14
Si por el contrario ambas estimaciones son muy diferentes, y la varianza entre los grupos es mayor que la varianza dentro de los grupos (es mayor la diferencia entre los grupos que la que encontramos entre los sujetos) podremos inferir que las muestras proceden de poblaciones distintas con distinta media. Dicho en términos más simples, se trata de verificar si las medias de los grupos difieren entre sí más que los sujetos entre sí.
7. Cómo comparamos dos varianzas: la razón F
Para comparar dos varianzas no restamos una de la otra (como hacemos cuando comparamos dos medias) sino que dividimos una por la otra calculando la razón F de Snedecor:6 F=
2 σ mayor 2
σ menor
[2]
o según los términos convencionales convencionales del análisis de varianza, CM entre F= [3] CM dentro donde CM = Cuadrados Medios, o varianza. Para entender mejor lo que hacemos mediante la razón F del análisis de varianza podemos pensar en una analogía con la t de Student 7. Con muestras de idéntico tamaño ésta es la fórmula que utilizamos: M − M2 t = 12 [4] 2 σ1 + σ2 Ν − 1
En el numerador tenemos la diferencia entre las medias de dos muestras. En el denominador vemos las varianzas de los dos grupos, un indicador de las diferencias dentro de los grupos 8; es lo mismo que vemos en la fórmula [3], diferencias entre medias en el numerador y diferencias entre sujetos en el denominador. Podemos ver sin mayor dificultad que obtendremos un valor de t estadísticamente significativo (el cociente será mayor) en la medida en que la diferencia entre las dos medias (numerador) sea mayor y las diferencias dentro de los grupos expresadas en las varianzas del denominador sean más pequeñas. No es algo muy distinto a lo que hacemos en el análisis de varianza: verificar si las medias difieren entre sí más que los sujetos entre sí. De hecho, y en el caso de dos muestras, ya veremos que ambos análisis, contraste de medias y análisis de varianza, nos llevan a los mismos resultados y a las mismas conclusiones (F, el estadístico propio del análisis de varianza, es igual a t 2).
6 Las tablas de la distribución de F son de Snedecor (y por eso se llaman tablas de la F de Snedecor ) pero se basó en un trabajo previo de Sir Ronald Aymer Fisher (1890-1962), y en su honor denominó F a este cociente. El análisis de varianza se lo debemos fundamentalmente a Fisher. George Waddle Snedecor (1881-1974) fue el primero en fundar en EE.UU. un departamento departamento de estadística en Iowa State University. 7 Tomamos esta analogía de McGuigan (1994). 8 En términos propios, el denominador de la t de Student es el error típico de la diferencia entre medias. Introducción al Análisis de Varianza
15
¿Qué varianza se pone en el numerador y qué varianza se pone en el denominador?
a) Cuando se comparan (o contrastan) dos varianzas mediante la razón F, la norma general es colocar en el numerador la varianza mayor y en el denominador la varianza menor, como se indica en la fórmula [2]. b) En el análisis de varianza al calcular la razón F colocamos en el denominador la varianza considerada en cada caso como normal o aleatoria, aunque no sea la más pequeña (aunque casi siempre es la más pequeña), como se indica en la fórmula [3]. Cuando comparamos varias muestras independientes, esta varianza aleatoria (que expresa la diversidad o variabilidad normal) es la varianza dentro de los grupos, como ya hemos indicado. En otros planteamientos planteamientos (muestras relacionadas, diseños factoriales, etc.) cuál es la varianza que va en el denominador (la varianza aleatoria, el término de comparación) se indica expresamente en cada caso. En estos planteamientos puede haber más de un razón F pues comparamos varias varianzas (o fuentes, orígenes de diversidad) con la varianza aleatoria o diversidad normal . En la terminología para designar el denominador de la razón F cabe cierta confusión porque se emplean indistintamente distintos términos: Varianza (o cuadrados medios) dentro de los grupos (que es lo que es realmente) Varianza del término del error (error es aquí lo mismo que diferencias aleatorias, normales las que hay en cualquier grupo de sujetos u objetos), Varianza residual (la que nos queda cuando eliminamos otras fuentes sistemáticas de variabilidad como puede ser la pertenencia a uno u otro grupo). La varianza que colocamos en el numerador es la que nos interesa comparar con la que consideramos normal o aleatoria. Nuestro interés está en comprobar si la varianza del numerador (que expresa las diferencias entre los grupos) difiere de la varianza del denominador (que expresa las diferencias dentro de los grupos), que es el término de la comparación porque expresa la variabilidad normal .
c) Si la varianza del denominador es mayor que la del numerador, no es necesario calcular la razón F; el cociente va a ser inferior a 1 y la diferencia entre las dos varianzas no va a ser estadísticamente significativa. Se puede calcular y poner el dato en su lugar, pero no hace falta consultar las tablas. En lugar de poner p <.05 ó p<.01, pondremos p > .05 (si nuestro nivel de confianza es α = .05) o simplemente simplemente no significativo. d) En cualquier caso, al consultar las tablas, donde dice grados de libertad del cuadrado mayor hay que entender grados de libertad de la varianza del numerador y donde dice grados de libertad del cuadrado menor hay que entender grados de libertad de la varianza del denominador.
e) Si la razón F es igual a 1, las dos varianzas son iguales. En la medida en que la varianza del numerador sea mayor que la del denominador, el cociente irá siendo mayor que 1. Si los sujetos pertenecen a la misma población y el pertenecer a un grupo u otro no tiene nada que ver con la variable dependiente, es muy improbable obtener valores de F muy grandes. La probabilidad de obtener un cociente F por azar es lo que consultamos en las tablas de Snedecor. Si nuestra F es muy poco probable (p < .05) en el caso de que no
Introducción al Análisis de Varianza
16
haya deferencias entre los grupos, nuestra conclusión será que sí hay diferencias. El razonamiento es el mismo que nos hacemos en el contraste de medias. Normalmente vienen en las tablas dos valores; el primero es el valor que se daría por azar el 5% de las veces (p = .05) y el segundo el 1% de las veces (p = .01); si se superan estos valores lo expresamos así: p<.05 ó p<.01. En estos casos consideramos que la probabilidad de que la diferencia entre las dos varianzas haya sido una casualidad es muy pequeña, y por eso afirmamos que las varianzas son distintas, o que el valor de F es estadísticamente significativo . Algunos textos traen tablas con otros valores, pero .05 y .01 son las probabilidades que utilizamos habitualmente para aceptar la decisión de no diferencia, como es usual en la investigación experimental en las ciencias sociales. En programas de ordenador (y de Internet) nos viene la probabilidad exacta, y si disponemos de esta información, es la que deberíamos utilizar y comunicar. El ejemplo explicado corresponde al planteamiento más sencillo, en el que se comparan varias muestras independientes. Si el valor de F es estadísticamente significativo, e indica por lo tanto que la varianza que corresponde al numerador (diferencias entre los grupos) es mayor que lo que podríamos esperar por puro azar; pasamos ya a comprobar qué pares de medias difieren significativamente, y según los casos, podemos hacer también otros cálculos adicionales. 8. Explicación alternativa: relación entre variables cualitativas o criterios de clasificación (variable independiente) y variables cuantitativas (variable dependiente)
Otra manera de presentar lo que hacemos con el análisis de varianza, y que ya hemos enunciado antes brevemente, es ver de qué tipos de datos disponemos y qué información buscamos que nos relaciona los distintos tipos de datos. Esta manera de presentar el análisis de varianza es equivalente a la explicada en el apartado anterior, pero puede ayudar a una comprensión más cabal del procedimiento. procedimiento. I. Siempre que hacemos un análisis de la varianza tenemos dos tipos de información o dos tipos de datos: a) Información cuantitativa. Los datos en la variable dependiente; son los datos que hemos obtenido y tabulado: la medida de una actitud, una medida de rendimiento académico, etc.; estos son los datos cuya varianza o diversidad analizamos. b) Información cualitativa. Tenemos además otra información sobre los sujetos: los criterios o categorías que hemos utilizado para clasificar a los sujetos (variable independiente), como pueden ser (en los planteamientos más comunes del análisis de
varianza): 1. La pertenencia a un grupo u otro, utilizando como único criterio de clasificación el grupo al que pertenecen (en el análisis de varianza para muestras independientes);
2. Las preguntas a las que han respondido, experiencias o condiciones por las que han pasado, etc. ( análisis de varianza para muestras relacionadas, los sujetos son los mismos en las diversas condiciones o columnas); 3. Los dos o más criterios que nos han servido para clasificarlos, para organizar a los sujetos al disponer la tabla de datos, como en el análisis de varianza de Introducción al Análisis de Varianza
17
con dos o más criterios de clasificación, en los que cada criterio está dividido en dos o más niveles, así el criterio sexo tiene dos niveles, hombre-mujer, etc. II. Mediante el análisis de varianza podemos relacionar los dos tipos de diseños factoriales (tablas de doble entrada);
información:
La información cuantitativa, que son los datos obtenidos y tabulados ( variable dependiente ) La información cualitativa, que son los criterios para clasificar a los sujetos, independiente ). como el pertenecer a uno u otro grupo ( variable independiente 1º Nos hacemos estas preguntas, que son equivalentes: • La
varianza, la diversidad que encontramos en la variable dependiente (la variable medida y tabulada) ¿Está influida por, tiene que ver con los criterios de clasificación?; clasificación?;
• El
criterio de clasificación (pertenecer a un grupo u otro, etc.) ¿Tiene que ver con las diferencias que encontramos en la variable dependiente?
• Este
criterio de clasificación, ¿Es una fuente de varianza, de diversidad en la variable dependiente? (los criterios de clasificación ¿Son orígenes o causas hipotéticas de varianza o diversidad en la variable dependiente?).
• ¿Son los sujetos distintos en la variable dependiente, en la variable medida, porque también son distintos en el criterio de clasificación (unos han seguido el
método A, otros el método B, etc.)? 2º Respondemos a estas preguntas mediante la razón F: Si la razón F es significativa (o lo que es lo mismo, si la varianza del numerador, y que corresponde a los criterios de clasificación, es superior a la varianza aleatoria o normal que hemos puesto en el denominador) entonces podemos concluir que los sujetos son distintos en la variable dependiente (la que hemos medido y tabulado) porque también (siendo prudentes en la interpretación causal) son distintos en la variable o variables que nos ha servido para clasificarlos y cuya varianza está puesta en el numerador de la razón F. O si se quiere expresar lo mismo de una manera más cauta, podemos decir que una F significativa indica diferencias sistemáticas y coherentes o simultáneas en los dos tipos de información, en la variable dependiente que hemos medido y en el criterio de clasificación clasificación puesto en el numerador de la razón r azón F: difieren en la variable dependiente (la que hemos medido) y además pertenecen a grupos o clasificaciones distintas (existe una relación de hecho, cualquiera que sea su explicación, explicación, entre los criterios de clasificación y la variable dependiente). Una razón F significativa nos indica por lo tanto que hay una relación superior a lo aleatorio (o normal) entre a) la variable que corresponde al numerador de la razón F y b) la variable en la que hemos medido a los sujetos.
Hay diferencias entre los sujetos en la variable medida porque también son diferentes en el criterio de clasificación (o lo que esté puesto en el numerador de la razón
Introducción al Análisis de Varianza
18
F: la varianza correspondiente a un criterio de clasificación clasificación o la varianza correspondiente a la relación entre dos o más criterios). Cuando decimos que hay diferencias en la variable medida porque también las hay en el criterio de clasificación no estamos implicando una relación causal; podríamos decir con más propiedad (o de manera más descriptiva) que si la razón F es significativa, las diferencias en la variable medida están asociadas de hecho a pertenecer a un grupo u otro9. III. Una razón F significativa nos permite afirmar que la varianza o diversidad del numerador de la razón F (el pertenecer a un grupo a otro) está relacionada con la varianza o diversidad en la variable medida. Pero nos falta todavía información para interpretar bien los resultados.
a) Podemos comprobar entre qué grupos hay una diferencia significativa cuando sea apropiado; la razón F nos dice que hay diferencias entre las medias, pero no entre qué grupos se da esa diferencia. b) Podemos cuantificar la magnitud de los resultados mediante los cálculos apropiados (coeficientes de fiabilidad en el caso de muestras relacionadas, y otros coeficientes de asociación en otros planteamientos que iremos viendo). Esta cuantificación (de 0 a 1) nos ayuda a interpretar los resultados, o a comparar dos F significativas significativas y valorar su importancia. Una razón F (o un valor de t o su equivalente) no cuantifica la diferencia; simplemente nos permite afirmar que hay diferencias por encima de lo aleatorio, sin responder de manera clara al mucho o poco de la diferencia. Sin embargo disponemos de análisis adicionales adicionales para apreciar la magnitud de las diferencias (de la misma manera que en el contraste de medias disponemos del tamaño del efecto, concepto que también es aplicable aquí). c) Siempre hace falta una valoración conceptual, lógica, de los resultados, en función del diseño, de otros datos que ya conocemos, etc., y con frecuencia nuestras conclusiones nos sugerirán otras hipótesis, otros diseños, o una repetición del experimento, con otras muestras o en otras circunstancias, para confirmar los resultados. 9. Diversos modelos de análisis de varianza
En esta explicación introductoria nos estamos refiriendo al planteamiento más sencillo y fácil de entender, el referido a varias muestras independientes, pero el análisis de varianza admite gran variedad de planteamientos distintos y es el método adecuado para plantear y analizar muchos diseños experimentales y cuasi-experimentales, y también estudios exploratorios. Los que vamos a exponer son los siguientes: 1º Para varias muestras independientes independientes 2º Para varias muestras relacionadas 3º Para diseños factoriales (tablas de doble entrada) 4º Para verificar tendencias a creer o decrecer 5º Algunas variantes de los diseños factoriales
9 Para inferir causalidad tenemos que poder excluir otras explicaciones, y esto lo muestreo aleatorio y del control de otras variables con un diseño apropiado. Introducción al Análisis de Varianza
intentamos
a través del
19
Los textos básicos de estadística e investigación suelen traer al menos los dos primeros (para más de dos muestras independientes o relacionadas); en ambos modelos encajan muchos posibles diseños de investigación. También es frecuente encontrar el modelo más común de análisis de varianza para diseños factoriales; menos frecuente es encontrar en textos básicos el análisis de varianza para verificar tendencias (muy útil en investigación sociológica, educacional y psicológica) y las diversas variantes de los diseños factoriales. Hay otros muchos modelos de análisis de varianza que se pueden resolver con facilidad (o al menos entender) mediante procedimientos análogos a los explicados aquí. El tener a la vista, y con ejemplos resueltos, varios modelos de análisis de varianza es útil por varias razones que se complementan entre sí. 1. El qué hacemos, o qué planteamos, en una investigación depende en buena medida de qué sabemos hacer. Si sabemos de qué análisis disponemos, podemos pensar en planteamientos que nunca se nos habían ocurrido. Por otra parte el qué sabemos hacer no es exacto: nos basta saber qué podemos aprender o qué podemos buscar o repasar si ha habido un estudio previo; en definitiva lo que importa es saber qué análisis tenemos de alguna manera disponibles. 2. Muchos posibles análisis de varianza coinciden con diseños experimentales o cuasi-experimentales específicos. A veces podemos pensar en diseños, estudiados a veces de un modo más teórico y abstracto pero sin referencia a planteamientos y modos de análisis específicos. específicos. Esto puede llevar después a diseños mal planteados o inabordables, en definitiva a un aprendizaje inoperante. Una manera de abordar el aprendizaje de los diseños es ver y aprender simultáneamente cómo se pueden analizar los datos en cada diseño. Lo mismo sucede con el control de determinadas variables, que puede verse también incorporado en el planteamiento planteamiento de algunos modelos de análisis de varianza. 3. Con frecuencia se nos ocurren preguntas de investigación a las que después no sabemos dar respuesta. Puede ser interesante examinar primero posibles repuestas y pensar después qué preguntas queremos (o podemos) hacernos… Los análisis estadísticos nos brindan respuestas a posibles preguntas: si tenemos un repertorio amplio de posibles respuestas, pensaremos con más facilidad en preguntas de interés. 4. En definitiva, y como ya se ha indicado, en el análisis de varianza disponemos de dos tipos de datos: a) Datos en la variable dependiente (qué medimos, qué preguntamos, qué observamos… en los sujetos) y… b) Cómo están clasificados clasificados en categorías Lo que hacemos con el análisis de varianza es comprobar si los datos de la variable dependiente tienen que ver con cómo están seleccionados y clasificados los sujetos (u objetos). En buena medida los modelos de análisis de varianza que vamos a exponer no son otra cosa que modos de clasificar a los sujetos, que a su vez nos pueden sugerir numerosas preguntas y planteamientos de investigación.
Introducción al Análisis de Varianza
20
10. Cuestiones metodológicas previas 10.1. Requisitos previos para utilizar el análisis de varianza
En los modelos teóricos en los que se basa el análisis de varianza se hacen tres suposiciones; 1) escalas de intervalo, 2) distribución normal y 3) homogeneidad de varianzas, pero las tres suposiciones suposiciones son de importancia muy desigual. 1) En la variable dependiente (en la que medimos a los sujetos) tenemos unidades de intervalo, (y observaciones independientes) independientes) La primera suposición es que utilizamos escalas de intervalo, con una unidad en sentido propio. Esto no suele ser lo habitual en los instrumentos de medición educacional y psicológica (tests, escalas de diverso tipo, preguntas con respuestas graduadas, etc.), pero la mayoría de los autores coinciden en afirmar que con estos instrumentos el análisis de varianza, como otros muchos análisis, son seguros, y así lo confirma la práctica más habitual 10 2) La variable dependiente (la que medimos) sigue la distribución normal; Sobre el presupuesto de normalidad en la variable dependiente (la que medimos), una abundante investigación confirma que en general la violación de estos presupuestos no invalida de manera apreciable los resultados del análisis de varianza. La violación de la normalidad es menos importante (prácticamente irrelevante, Glass y Stanley, 1974:373), como está confirmado por numerosos estudios; de hecho las medias tienden a la distribución normal aunque las poblaciones de donde proceden no sean normales (Guilford y Fruchter, 1973: 277). 3) Las varianzas de las distintas poblaciones representadas en las muestras no difieren significativamente entre sí . La condición previa de homogeneidad de varianzas (denominada homoestacidad ) es sin duda la más importante, aunque la distorsión en los resultados (en relación al error Tipo I)11 es pequeña si el número de sujetos es idéntico en todas las muestras o submuestras. ¿Qué sucede cuando las varianzas son muy desiguales? Al menos hacemos dos observaciones: a) Las probabilidades que señalan las tablas de la F no son las reales; una probabilidad de .05 puede corresponder realmente a un valor menor o mayor, aunque la diferencia entre la probabilidad señalada en las tablas y la real suele ser pequeña. 12 b) Con grupos de tamaño desigual y varianzas desiguales desiguales el que la probabilidad real sea mayor o menor que la indicada por las tablas depende del tamaño de los grupos:
10 Los métodos habituales de obtención de datos (como escalas tipo-Likert, etc.) se aproximan suficientemente a las escalas de intervalo y las distorsiones que se pueden introducir son pequeñas; es más lo que se gana que lo se pierde con estos métodos que dan por hecho que se da una unidad aproximada (Guilford, 1954; Nunnally, 1978 y muchos otros). Este punto lo tratamos con más detalle en Morales (2006), cap. 1, apartado 2.3 11 Recordamos cuál es el error Tipo I: aceptar la diferencia cuando realmente no la hay (rechazar, o no aceptar, la Hipótesis Nula cuando es verdadera). Es el tipo de error que en principio nos interesa evitar., no equivocarnos al afirmar que hay diferencias superiores a lo normal entre los grupos. 12 Si las varianzas son muy desiguales puede suceder que un valor de F tenga una probabilidad de .05 en las tablas y realmente esté entre .04 y .07 (Guilford y Fruchter, 1973:277) o entre .07 y .09 (Linton, Gallo y Logan, 1975, que no recomiendan la comprobación previa de estos requisitos). Introducción al Análisis de Varianza
21
Cuando el grupo mayor tiene también la varianza mayor el valor de F es conservador: la probabilidad de que la diferencia entre varianzas sea aleatoria es todavía menor de lo que señalan las tablas. Cuando el grupo más pequeño tiene la varianza mayor, el valor de F es liberal: las probabilidades probabilidades de que las varianzas difieran son mayores de lo que señalan las tablas 13. En consecuencia el problema es menor cuando coinciden la muestra mayor y la varianza mayor (aunque podemos quedarnos sin demostrar nuestra hipótesis). Los programas de ordenador verifican rutinariamente si se cumplen los requisitos de normalidad en la distribución y de homogeneidad de varianzas. Tres pruebas populares para verificar la homogeneidad de varianzas son la de Bartlett y Levene ( para muestras de tamaño distinto)14 y la de Hartley (para muestras de idéntico tamaño). 15 El test de Hartley es muy sencillo; consiste en calcular la razón F con las dos varianzas extremas, dividiendo la varianza mayor de todas por la más pequeña: si vemos en las tablas que la razón F no es significativa ya sabemos que se cumple la condición de homogeneidad de varianzas (utiliza sus propias tablas, no las convencionales de la razón F). Otra prueba muy utilizada es la de Levene, menos sensible a la no normalidad de las muestras y una buena alternativa a la de Bartlett 16. Todas estas pruebas previas son sin embargo problemáticas por diversas razones; son muy sensibles a la no normalidad (menos la de Levene) y con frecuencia tienen poca potencia (no controlan bien el error Tipo I) cuando se utilizan como control previo al análisis de varianza. 17 Sobre qué hacer en la práctica se pueden dar unas orientaciones generales que podemos ver en diversos autores. Aunque los programas de análisis estadístico como el SPSS suelen dar los dos resultados (lo mismo que cuando se hace un contraste de medias) suponiendo varianzas iguales suponiendo varianzas desiguales conviene tener en cuenta estas orientaciones. orientaciones. a) Las varianzas desiguales no deben preocuparnos si las muestras son de idéntico tamaño 18; por varianzas desiguales podemos entender que la mayor no es más de tres veces mayor que la varianza más pequeña. 13 Lix, Keselman y Keselman (1996), Jaccard (1998: 81); sobre este punto puede verse también Hernández, Borges y Ramírez (1996). 14 El test de Bartlett se basa en el ji cuadrado y se encuentra programado en Internet ( Homogeneity of Multihttp://home.ubalt.edu/ntsb balt.edu/ntsbarsh/Busines arsh/Business-stat/otherapp s-stat/otherapplets/BartletTest.htm lets/BartletTest.htm,, basta variances: The Bartlett's Test http://home.u introducir de cada muestra el número de sujetos y las varianzas (no las desviaciones típicas) y si p > .05 podemos aceptar la homogeneidad de varianzas. Esta dirección se encuentra en la Home Page de Hossein Arsham http://home.ubalt.edu/ntsba http://home.ub alt.edu/ntsbarsh/Business rsh/Business-stat/home.htm -stat/home.htmll en JavaScript E-labs Learning Objects (Equality of Multvariances)
15 Estas pruebas se encuentran en numerosos textos; una explicación muy clara puede verse en Escotet (1980). Métodos para verificar la homogeneidad de varianzas hay muchos; en Zhang, Shuqiang (1998) se encuentra una exposición crítica de 14 de estas pruebas. 16 El test de Levene está bien explicado en NIST/SEMATECH e-Handbook of Statistical Methods, http://www.itl.nist.gov/div898/h http://www.itl.nist.go v/div898/handbook andbook// Levene Test for Equality of variances http://www.itl.nist.gov/div898/h http://www.itl.nist.go v/div898/handbook/e andbook/eda/section3/e da/section3/eda35a.htm da35a.htm (consultado 7, Oct., 2007). 17 Pueden verse numerosas investigaciones citadas por Jaccard, (1998:82). 18 Por ejemplo Hays (1981:347), Kirk (1995:101) y muchos otros autores de autoridad reconocida. Para Myers (1972:72-73) aun cuando las varianzas difieran en una proporción de 4 a 1 (o de 3 a 1, Jaccard, 1998:81), la distorsión en los resultados (en relación al error Tipo I) es pequeña pero solamente si el número de sujetos es idéntico en cada Introducción al Análisis de Varianza
22
b) Tampoco deben preocuparnos las varianzas desiguales si las muestras son de distinto tamaño con tal de que 1) los tamaños de las muestras no difieran mucho y 2) las muestras no tengan menos de 20 sujetos (Jaccard, 1998:81). c) Por otra parte ya veremos en su lugar que cuando no se cumplen las condiciones previas del análisis de varianza, hay contrastes posteriores muy seguros (como el de Scheffé) y al menos hay un contraste posterior específico para cuando los tamaños de las muestras son distintos y las varianzas son desiguales .19 d) En algunos casos de varianzas muy desiguales (mucho mayores que las demás) podemos examinar si en alguna muestra hay sujetos atípicos con puntuaciones muy extremas (outliers). Si hay sujetos muy atípicos, podemos considerar el eliminar de la muestra a estos sujetos (responsables de una varianza mucho mayor). En estos casos habrá que comprobar si estos sujetos tienen alguna característica común para no generalizar los resultados a ese tipo de sujetos. Por ejemplo, podemos encontrarnos con que un subgrupo de sujetos con puntuaciones muy atípicas tienen también una edad muy distinta a la de la mayoría, o una procedencia distinta, etc. e) Cuando las varianzas son notablemente distintas, y sobre todo si los grupos son de tamaño distinto, hay otras alternativas al análisis de varianza menos conocidas 20 Con grupos pequeños, de tamaño desigual y con varianzas muy distintas, siempre tenemos las paramétricas .21 alternativas no paramétricas Las violaciones de estos presupuestos afectan al análisis de varianza cuando se trata en sentido propio de estadística inferencial, es decir, de llegar a conclusiones acerca de las poblaciones representadas representadas por las muestras (como es lo habitual). Si con el análisis de varianza se pretende llegar a un resumen descriptivo de lo que está sucediendo en las analizadas, estos supuestos dejan de ser importantes. 22 muestras analizadas, 10.2. Tamaño de los grupos y pérdida de sujetos
El número de sujetos en cada grupo (necesario o conveniente) lo tratamos en el anexo VI, junto con los criterios para determinar el tamaño de la muestra . Aquí tratamos sobre el tamaño igual o desigual de las muestras y sobre la pérdida de sujetos. Cuando tenemos varias muestras independientes y vamos a verificar si entre las medias existen diferencias significativas: 1º Los grupos pueden ser de tamaño distinto; el procedimiento es el mismo (con alguna variante menor que indicaremos en su lugar; es más sencillo cuando los grupos son de idéntico tamaño). Ya veremos también que la mayoría de los contrastes posteriores suponen el mismo tamaño en los grupos, pero también disponemos de contrastes apropiados cuando los grupos son de distinto tamaño.
muestra; en todos estos autores (y en otros como Glass y Stanley, 1974:371) se citan muchas investigaciones que apoyan lo mismo. 19 Se trata del contraste de Games y Howell, para muestras de tamaño desigual y varianzas desiguales. desiguales. 20 Pueden verse expuestas y evaluadas en Lix, Keselman y Keselman, (1996). Estos autores presentan el estado de la cuestión y aportan un meta-análisis sobre los efectos de las violaciones en el análisis de varianza, con conclusiones que aconsejan cautela cuando las varianzas son muy desiguales. 21 La prueba de Kruskal-Wallis para el caso de varias muestras independientes, o de Friedman para muestras relacionadas; son las alternativas no paramétricas más conocidas y populares del análisis de varianza, pero hay más que reseñamos en el anexo VII. 22 Lix, Keselman y Keselman (1996: 582).
Introducción al Análisis de Varianza
23
2º En principio es preferible utilizar muestras de idéntico tamaño por dos razones: 1ª Ya hemos visto que con muestras de idéntico tamaño el análisis de varianza tolera mejor el que no se cumplan los requisitos previos (sobre todo el de homogeneidad homogeneidad de varianzas). 2ª Con muestras iguales tenemos disponible un repertorio más amplio de contrastes posteriores, y en muchas ocasiones los más aconsejables requieren muestras de idéntico tamaño. Aún así, cuando se trata de varias muestras independientes, es muy frecuente que los grupos sean de hecho de distinto tamaño, sobre todo cuando comparamos grupos naturales (como los alumnos de diversas clases, Facultades, etc.). Esta recomendación (muestras de idéntico tamaño) es más pertinente en diseños experimentales en sentido propio; en estos casos suele ser más viable disponer de grupos de idéntico tamaño. En planteamientos experimentales, hechos frecuentemente con grupos muy pequeños, podemos con más facilidad disponer de grupos con idéntico número de sujetos, bien porque los escogemos así, o bien porque descartamos sujetos aleatoriamente. Lo que sucede a veces es que en el proceso de la investigación perdemos sujetos (sobre todo si hay medidas repetidas en diversos tiempos) y al llegar al análisis nos encontremos con grupos desiguales. Si los grupos son muy pequeños (pongamos por ejemplo n < 10) el descartar sujetos supone una pérdida importante en el tamaño de la muestra. En estos casos lo que suele aconsejarse (por ejemplo Denenberg, 1976) es 1º substituir la puntuación que nos falta por la media del grupo pero solamente si nos falta una observación o sujeto y además 2º descontar un grado de libertad en el término del error (el denominador de la razón F). En los diseños factoriales (tablas o cuadros de doble entrada) es más importante disponer del mismo número de sujetos en cada clasificación, como tratamos en el lugar correspondiente. 10.3. Tipos de categorías de clasificación
Las categorías de clasificación (variable independiente) pueden ser de tres tipos: fijas, aleatorias y mixtas, como explicamos enseguida. En el caso de varias muestras independientes independientes las categorías sólo pueden ser o fijas o aleatorias; las mixtas se dan cuando hay más de un criterio de clasificación, como en los diseños factoriales (cuando disponemos disponemos los datos en tablas de doble entrada) que veremos más adelante. 1º Categorías fijas Son categorías fijas las escogidas arbitrariamente por el investigador, y es posiblemente el caso más frecuente; como ejemplos podemos pensar en: a) Alternativas obvias y con frecuencia las únicas disponibles: disponibles: sexo, pertenencia a un grupo, etc. b) Variables cuantitativas, como tiempo dedicado a una tarea (una hora, dos horas, etc.), número de experiencias, nota media previa, edad (agrupándolas en varios niveles), etc.
Introducción al Análisis de Varianza
24
En estos casos suelen escogerse como criterios de clasificación algunas categoríastipo entre todas las posibles, pero no por azar (aleatoriamente) sino con algún criterio lógico. Si, por ejemplo, una categoría es el tiempo dedicado a una actividad, y el máximo tiempo posible es hora y media, se pueden clasificar los sujetos según dediquen a la actividad media hora, una hora o una hora y media. El número de niveles o subcategorías puede ser tan grande como se estime oportuno. c) Diversas variantes de un método, condición, etc. Categorías fijas son en definitiva cualquier criterio de clasificación que siga un criterio lógico como base para la clasificación (método, modalidad, grupo, etc.). Las categorías fijas se definen quizás mejor por lo que no son: no son niveles o categorías de clasificación clasificación seleccionadas aleatoriamente entre otras semejantes de la misma población, como explicamos a continuación. 2º Categorías aleatorias Son las escogidas aleatoriamente entre una población mayor. Un ejemplo puede ser éste: Se desea comprobar, por ejemplo, si el rendimiento escolar depende del tipo de centro o del tipo de profesor. Las categorías de clasificación van a ser en estos casos profesor y centro escolar, pero son muchos los posibles centros y los posibles profesores en una zona dada. Si en este caso escogemos profesores y centros aleatoriamente, tenemos categorías aleatorias, y las conclusiones podremos generalizarlas a las poblaciones de centros o de profesores. Un ejemplo clásico de categorías aleatorias se da en las investigaciones en las que se pretende comprobar si el orden con que se presentan las preguntas de un cuestionario influye en cómo se responde a estas preguntas. En un cuestionario de seis preguntas se pueden hacer 720 combinaciones alterando el orden. Evidentemente son demasiadas posibilidades. El investigador puede escoger un número limitado de versiones del mismo cuestionario, por ejemplo cinco o seis, a cada versión responde una muestra de sujetos y las conclusiones pueden extrapolarse entonces con más seguridad a la población de posibles maneras de ordenar las preguntas 23. 3º Categorías mixtas . Cuando tenemos más de una categoría de clasificación, una categoría puede ser fija y la otra aleatoria; por ejemplo métodos didácticos escogidos con un criterio lógico (o simplemente los métodos disponibles) y centros escolares escogidos aleatoriamente en los que se van a aplicar los diversos métodos. Las categorías de clasificación más frecuentes (y más fáciles al planificar una investigación) investigación) son las categorías fijas. En la práctica las repercusiones del tipo de categorías son dos: a) La posibilidad de extrapolar las conclusiones a la población de categorías (de centros, de profesores, etc.) cuando estas han sido seleccionadas seleccionadas aleatoriamente.
23 Este ejemplo, y algunas variantes del mismo, puede verse bien explicado en Iversen y Norpoth (1987) Introducción al Análisis de Varianza
25
b) Algunas peculiaridades metodológicas que iremos viendo en su lugar; en algunos casos (como en los diseños factoriales) factoriales) el denominador de la razón F va a variar en función del tipo de categorías. 11. Referencias bibliográficas
DENENBERG, VICTOR H., (1976). Statistics and Experimental Design for Behavioral and Biological Researchers. New York: John Wiley & Sons, GLASS, GENE V. y STANLEY, JULIAN C., (1974). Métodos Estadísticos Aplicados a las Ciencias Sociales. Madrid, Prentice-Hall Internacional. GUÉGUEN, NICOLAS (1997). Manuel de Statistique pour Psychologues . Paris: Dunod. GUILFORD, J. P. y FRUCHTER , B., (1984). Estadística aplicada a la psicología y la educación, México: McGraw-Hill. [En Inglés: Fundamental Statistics in Psychology and Education, 1973. New York: McGraw-Hill]. HAYS, WILLIAM L. (1981). Statistics. Third Edition. New York: Holt, Rinehart and Wilson. 713 pp. HERNÁNDEZ, JUAN A.; BORGES, ÁFRICA y R AMÍREZ AMÍREZ, GUSTAVO (1996). Análisis de la robustez del ANOVA en el caso de tamaños muestrales distintos y no proporcionales frente a los contrastes de aleatorización. Psicológica, 17, 127-141. JACCARD, JAMES (1998). Interaction Effecs in Factorial Analysis of Variance, Sage University Paper Series on Quantitative Applications in the Social Sciences. Thousand Oaks: Sage. K IRK IRK , R OGER OGER E., (1995). Experimental Design, Procedures for the Behavioral Sciences. Boston: Brooks/Cole. LINTON, MARIGOLD, GALLO JR .,., PHILLIP S. and LOGAN, CHERYL A., (1975). The Practical Statistician, Simplified Handbook of Statistics . Monterey: Brooks/Cole. LIX, LISA M., K ESELMAN ESELMAN, JOANNE C. and K ESELMAN ESELMAN , H.J., (1996). Consequences of Assumption Violations Revisited: A Quantitative Review of Alternatives to the OneWay Analysis of Variance F Test. Review of Educational Research, 66 (4) 579-619. MCGUIGAN, F. J., (1994) Experimental Psychology, Methods of Research. Sixth edition. Englewood Cliffs, N.J.: Prentice Hall. MORALES, VALLEJO, PEDRO (1996). Medición de actitudes en Psicología y Educación. 3ª edición. Madrid: Universidad Pontificia Comillas. MYERS, JEROME L., (1972). Fundamentals of Experimental Designs. Boston: Allyn and Bacon. NUNNALLY, JUM C. (1978). Psychometric Theory. New York: McGraw-Hill. ENDALL, MAURICE, (1978). Studies in the History of Statistics and PEARSON, E. S. and K ENDALL Probability, Volume I. London: Griffin & Co. Limited. OSENTHAL, R OBERT OBERT and R OSNOW OSNOW, R ALPH ALPH L. (1991). Essentials of Behavioral R OSENTHAL Research, Methods and Data Analysis. Boston: McGraw-Hill. R OSENTHAL OSENTHAL, R OBERT OBERT, (1987). Judgment Studies, Design, analysis and meta-analysis. Cambridge: Cambridge University Press. OSENTHAL, R OBERT OBERT, (1991). Meta-analysis procedures for social research. Beverly R OSENTHAL Hills, CA: Sage. SPATZ, CHRIS (1993). Basic Statistics: Tales of Distributions, 5th Edit. Pacific Grove, CA: Brooks/Cole ZHANG, SHUQIANG (1998). Fourteen Homogeneity of Variance Tests: When and How to Use Them. Paper presented at the Annual Meeting of the American Educational Research Association, San Diego, California.
Introducción al Análisis de Varianza
Análisis de varianza con dos criterios de clasificación (diseños factoriales)
©Pedro Morales Vallejo Universidad Pontificia Comillas Facultad de Ciencias Humanas y Sociales (última revisión: 2 de Diciembre, 2009)
índice
1. Planteamiento Planteamiento general y conceptos previos..................................................... previos......................................................... .... Clasificación de los sujetos en dos categorías ............................................. 1.1. Clasificación 1.2. Qué pretendemos comprobar ............................................ ................................................................... ............................ ..... Importancia de la interacción ........................................... 1.3. Importancia .................................................................. ............................ ..... 1.4. Características de la muestra ........................................... .................................................................. ............................ ..... 1.5. Número de sujetos en cada clasificación ...................................................... 1.5.1. Número idéntico de sujetos en cada clasificación .............................. 1.5.2. El número de sujetos en términos absolutos ...................................... ...................................... 1.6. Importancia del tipo de categorías de clasificación ..................................... 2. Método..................................................... Método............................................................................ .............................................. ..................................... .............. 2.1. Disposición Disposición de los datos ............................................. .................................................................... .................................. ........... 2.2. Visión global del proceso ................................................. ......................................................................... ............................ .... 2.3. Cálculos previos................................................... previos........................................................................... ......................................... ................. 2.4. Cálculos propios del análisis de varianza ................................................. ..................................................... .... 2.4.1. Sumas de Cuadrados .............................................. ..................................................................... ............................. ...... 2.4.2. Grados de libertad ............................................. ..................................................................... .................................. .......... 2.4.3. Varianzas o Cuadrados Medios....................................................... Medios........................................................... .... 2.4.4. Comparación o contraste de varianzas (razón F) ................................ ................................ 2.4.5. Resultados finales: tabla de resultados............................................. resultados................................................ ... 2.4.6. Interpretación .................................................. .......................................................................... .................................... ............ 2.4.7. Resumen del procedimiento procedimiento....................... ................................................ ......................................... ................ 3. Análisis adicionales adicionales ................................................ ......................................................................... ............................................. .................... 3.1. Coeficientes Coeficientes de asociación.................................................... asociación............................................................................ ........................ 2 3.1.1. Coeficiente Coeficiente ω ............................................. ..................................................................... ........................................ ................ 2 3.1.2. Coeficiente Coeficiente η .............................................. ...................................................................... ........................................ ................ 3.2. Contrastes posteriores......................... posteriores .................................................. ................................................. ................................. ......... 3.2.1. Contraste entre las medias de niveles del mismo factor ...................... 3.2.2. Contraste entre las medias dentro del mismo nivel de un factor (cuando la interacción es significativa)............................................ significativa)................................................. ..... 3.3. El tamaño del efecto en los diseños factoriales.......................... factoriales ............................................ .................. 3.3.1. Cuando el factor secundario es una variable manipulada manipulada ..................... 3.3.2. Cuando el factor secundario es una característica característica natural de la población ............................................... ....................................................................... ..................................... ............. 4. La representación gráfica de los resultados como ayuda a la interpretación en los diseños factoriales .................................................. ....................................................... ..... 5. Análisis de varianza para diseños factoriales en EXCEL y SPSS ....................... 6. Referencias bibliográficas bibliográficas ................................................ ......................................................................... .................................... ........... Anexo. Análisis de Varianza (diseños factoriales) factoriales) en Internet ................................ ................................
3 3 3 4 5 5 6 7 7 8 8 9 10 11 11 12 12 13 14 14 15 15 16 16 17 18 19 22 24 24 24 26 28 29 29
3
1. Planteamiento general y conceptos previos 1. 1. Clasificación de los sujetos en dos categorías
La disposición de los datos al clasificar a los sujetos es importante, no sólo como ilustración, sino porque contribuye a entender lo que estamos haciendo. Se clasifican los sujetos según dos variables o categorías de clasificación (que suelen denominarse factores) en un cuadro de doble entrada. En el ejemplo sugerido en la tabla 1 los factores son a) actividades didácticas y b) la duración de estas actividades. La variable dependiente (la que medimos a los sujetos) sería en este caso nivel de aprendizaje. Los factores o criterios de clasificación pueden ser más de dos, pero en la presentación del método nos limitamos a dos nada más 1. Cada uno de los dos factores está dividido en dos o más niveles o subcategorías. Dada la disposición de los datos, también suele hablarse de filas y columnas (en este caso hay tantas filas y columnas cuantos niveles tengan los factores). Un ejemplo típico podría ser el puesto en la tabla 1; clasificamos a los sujetos según dos criterios: a) Factor A: según hayan participado en una determinada actividad. Este factor tiene dos niveles; suponemos que se trata de dos actividades distintas, o dos variantes de la misma actividad. b) Factor B: según el tiempo que haya durado esta actividad; en este factor de duración suponemos tres niveles o duraciones distintas. Factor A (actividades) A1 A2 Factor B (duración)
20 minutos B 1 40 minutos B2 una hora B3
Tabla 1 En cada clasificación tenemos el mismo número de sujetos . Con esta misma disposición de los datos se pueden visualizar muchos posibles diseños experimentales utilizando otros criterios de clasificación. clasificación. 1.2. Qué pretendemos comprobar
Lo que pretendemos comprobar es en qué grado las diferencias que encontremos en la variable dependiente (la que hemos medido, en este caso puede ser rendimiento escolar) se explican por las diferencias entre las actividades, o por las diferencias entre los tiempos, o por alguna combinación actividad-duración . Analizamos por lo tanto tres posibles fuentes de diferencias:
1 Con sólo dos criterios de clasificación, el planteamiento más frecuente, el método que proponemos es muy sencillo, sin más ayuda que una calculadora con la media y desviación típica programadas; además en procesos de aprendizaje ayuda a entender lo que estamos haciendo. Con más de dos criterios de clasificación se puede adaptar y utilizar el mismo procedimiento pero es preferible acudir directamente a programas de ordenador; los resultados son fáciles de interpretar si se ha aprendido antes a resolver e interpretar el planteamiento con dos criterios de clasificación. El análisis de varianza factorial se puede también hacer con EXCEL, SPSS y programas disponibles en Internet (mencionamos algunos en el Anexo). Análisis de varianza con dos criterios de clasificación (diseños factoriales)
4
a) Una actividad puede ser más eficaz que otra, independientemente independientemente de su duración, b) Una duración puede ser más eficaz que otra en cualquier actividad, c) Una actividad puede ser más eficaz que otra, pero solamente si dura en determinado tiempo. Podemos formular por lo tanto tres Hipótesis Nulas (formuladas en referencia al caso planteado en la tabla 1): 1ª Las dos muestras que han seguido actividades distintas proceden de la misma población (no hay diferencia significativa entre las actividades; no se aprende más con una que con otra). 2ª Las tres muestras que han trabajado durante tiempos de distinta duración proceden de la misma población (no hay diferencia significativa entre las duraciones). 3ª Las seis muestras que han trabajado en actividades distintas distintas y con duraciones distintas proceden de la misma población (no hay diferencias significativas entre los diversos subgrupos en los que se combinan actividad-duración). Tendremos que calcular tres varianzas que corresponden a las tres fuentes de diferencias, y una cuarta varianza que expresa la variabilidad normal o aleatoria, y que nos servirá como término de comparación de las otras varianzas (denominador de la razón F). Consecuentemente al final del proceso tendremos tres razones F que nos permitirán aceptar o no aceptar las tres Hipótesis Nulas. Como en el análisis de varianza en general, lo que verificamos es la relación que puede haber entre la variable dependiente (la característica de los sujetos que hemos medido) y los clasificar a los sujetos. criterios que nos han servido para clasificar Una manera posible de analizar estos datos sería considerar que tenemos 6 grupos de muestras independientes y utilizar un análisis de varianza de una clasificación simple para varias muestras independientes. independientes. Pero en este caso, si obtuviésemos una F significativa significativa que nos indicara que hay diferencias entre los grupos, no sabríamos si atribuirla a que las actividades son distintas, o a que las distintas duraciones producen resultados distintos, o a que determinadas combinaciones actividad-duración son más eficaces que otras. Los resultados podrían ser ambiguos o difíciles de interpretar con precisión. 1.3. Importancia de la interacción
Otra manera de enfocar la solución es hacer dos análisis de varianza: uno para comparar las dos actividades (nos bastaría en este ejemplo un simple contraste de medias ya que se trata solamente de dos actividades) y otro para comparar las tres duraciones. Pero nos quedaríamos sin saber la importancia de la relación actividad-duración . Esta relación es la que denominamos genéricamente interacción. En nuestro ejemplo puede ser que una actividad sea preferible, produzca mejores resultados, pero solamente si tiene una duración óptima. En general en la investigación educacional o psicológica la interacción puede tener mucha importancia. Con frecuencia lo que tenemos es: 1. Un factor denominado principal que es el objeto principal de nuestro estudio (en nuestro ejemplo distintas actividades); actividades); 2. Otro factor cuyos niveles suelen ser circunstancias o condiciones que pueden afectar a los niveles del factor principal; por ejemplo duraciones distintas, con o sin alguna Análisis de varianza con dos criterios de clasificación (diseños factoriales)
5
circunstancia, distintas variantes, tipos de sujetos, dosis…; también puede tratarse de agrupaciones naturales de lo sujetos (por ejemplo género, lugar de procedencia, grupo étnico, etc.). Un método (experiencia, actividad, terapia, etc.) puede ser mejor en unas circunstancias, pero en otras puede ser tan bueno o malo como los demás (circunstancias posibles que pueden modificar los resultados en la evaluación de unas actividades: medios auxiliares, tiempo dedicado, hora del día o época del año, etc.). Podemos pensar que de manera análoga algunas medicinas son mejores para unos pacientes que para otros, o pueden estar contraindicadas en determinadas personas, o pueden ser incompatibles con otros medicamentos… se trata también de interacciones: los efectos de un tratamiento pueden depender del nivel de una segunda variable. Podemos pensar en semillas de una planta: una variedad puede producir una mayor producción pero solamente en un determinado tipo de suelo, o con un determinado fertilizante, fertilizante, o una determinada cantidad cantidad de riego o de exposición solar, etc. 2 Es fácil ver que este planteamiento tiene una especial utilidad precisamente porque permite analizar las interacciones. También es verdad que cuando la interacción es significativa significativa la interpretación puede ser menos simple; hay que matizar más las conclusiones. 1.4. Características de la muestra
a) En este planteamiento todos los sujetos son distintos Se trata por lo tanto de muestras independientes; no hay sujetos repetidos en más de un grupo (otras variantes de este mismo modelo, con los sujetos clasificados en dos o más factores, son válidas para muestras relacionadas, pero no es éste el caso que presentamos ahora). b) En un diseño experimental en sentido propio los sujetos deben ser asignados aleatoriamente a las distintas condiciones condiciones experimentales para poder controlar otras variables. Los sujetos, por ejemplo alumnos, han sido asignados aleatoriamente a cada uno de los subgrupos para poder generalizar los resultados (controlamos de esta manera otras variables extrañas que pueden influir en la variable dependiente que hemos medido). Si no hay asignación aleatoria no se trata de un diseño experimental en sentido propio. La aleatoriedad permitirá generalizar las conclusiones conclusiones (validez externa) a otros sujetos de la misma población (representados por esta muestra) con una mayor seguridad. Si no hay asignación aleatoria de los sujetos a los grupos, caben otros modos de controlar variables con otros diseños (con sujetos igualados en variables importantes, o utilizando diseños más complejos). En muchas investigaciones (o simplemente en estudios experimentales) la no aleatoriedad es casi la norma (por su facilidad: se trabaja con grupos hechos o disponibles). Estos análisis (que no responden a un diseño experimental en sentido propio) son también útiles, pero hay que preguntarse siempre qué otras cosas pueden estar influyendo en la variable dependiente, y tener más cautela en la interpretación y sobre todo en la extrapolación de los resultados. r esultados. 1.5. Número de sujetos en cada clasificación
Con respecto al número de sujetos hay que distinguir dos cuestiones distintas, a) la conveniencia de disponer de un número idéntico de sujetos en cada clasificación, y b) el número de sujetos en términos absolutos en cada clasificación (en cada celda). 2 Precisamente este tipo de diseños tuvieron su origen en la investigación en el campo de experimentación agrícola y de la biología en general. Análisis de varianza con dos criterios de clasificación (diseños factoriales)
6
1.5.1. Número idéntico de sujetos en cada clasificación
En este modelo de análisis de varianza debe de haber el mismo número de sujetos en cada clasificación; el método es así más potente aunque no se cumplan los presupuestos de normalidad en la población y de homogeneidad de varianzas. El método resulta además mucho más sencillo y tal como lo explicamos aquí suponemos siempre que el número de sujetos es el mismo. El distinto número de sujetos en cada clasificación deja de ser problemático cuando las frecuencias en cada clasificación son proporcionales. Números proporcionales quiere decir lo mismo que las frecuencias teóricas o esperadas en los planteamientos de ji cuadrado (aun así advertimos que el procedimiento que expondremos supone un idéntico número de sujetos en cada clasificación; con grupos de idéntico tamaño el procedimiento es además más sencillo). Cuando el número de sujetos es desigual, los procedimientos sugeridos para igualar el número de sujetos son varios:
1º Descartar sujetos aleatoriamente. aleatoriamente. Con muestras razonablemente grandes la recomendación habitual es descartar aleatoriamente datos para obtener frecuencias iguales 3 (también se pueden descartar observaciones para conseguir frecuencias proporcionales). Esta recomendación es aplicable en principio a cualquier planteamiento de análisis de varianza porque, como ya hemos indicado, con un número idéntico de sujetos en cada grupo pierde importancia la violación de normalidad y de homogeneidad de varianzas. estrictamente aleatoria; la condición que El desechar sujetos debe hacerse de manera estrictamente indican los autores mencionados es que el número mínimo de sujetos por celda no sea inferior a 10, más o menos. 2º Estimar las puntuaciones que faltan. Si en algún caso falta algún sujeto en una celda (es normal la pérdida de sujetos en planteamientos experimentales) se pueden estimar las puntuaciones que faltan (missing scores) poniendo en su lugar la media de la celda; esta práctica no afecta apenas a los resultados si los sujetos por celda son al menos 10. Con este procedimiento se pueden estimar entre un 10 y un 25% de los datos. 4 3º Utilizar las medias Si utilizamos las medias de cada subgrupo en vez de las puntuaciones individuales, tendremos en cada clasificación n = 1, y también se puede llevar a cabo este análisis de varianza (diseños factoriales) con un solo sujeto en cada clasificación. En principio este tipo de solución no es deseable porque supone mucha pérdida de información, pero tampoco conviene descartar esta posibilidad porque puede tener su interés en sí misma. Al tratar de las variantes de los diseños factoriales trataremos este caso específico en el que podemos utilizar medias (y consecuentemente, n = 1 en cada celda) en vez de puntuaciones individuales. En este caso el procedimiento viene a ser el mismo que el análisis de vainas para muestrs relacionadas.
3 Por ejemplo Glass y Stanley (1974:439); Escotet (1980:84-85); Linton, Gallo y Logan (1975:131). 4 Linton, Gallo y Logan (1975:131). Cuando los dos factores tienen idéntico número de niveles (como en el diseño denominado cuadrado latino que no explicamos aquí) hay una fórmula específica para estimar el valor de las puntuaciones que nos faltan; puede verse en Tejedor (1984:236). Análisis de varianza con dos criterios de clasificación (diseños factoriales)
7
1.5.2. Número de sujetos en términos absolutos clasificación depende de varias El número de sujetos necesario (o conveniente) en cada clasificación variables. Nos referimos a tablas nxn (dos criterios de clasificación). En términos generales necesitaremos más sujetos a) cuando los niveles de cada factor son menos (necesitamos más sujetos en tablas 2x2 que en tablas 4x4) y b) la magnitud de las diferencias en la que estamos interesados; si queremos detectar diferencias pequeñas nos harán falta muchos más sujetos que si sólo estamos interesados en diferencias grandes. Como criterio orientador, y si se trata de detectar diferencias entre moderadas y grandes (ciertamente no pequeñas) podemos pensar en el número de sujetos en cada clasificación clasificación que figura en la tabla 2. Magnitud de la tabla
2x2 2x3 2x4 3x3 3x4 4x4
Número de sujetos
entre entre entre entre entre entre
13 y 32 11 y 26 9 y 22 7 y 18 6 y 15 5 y 12
Tabla 2 Para detectar con seguridad diferencias pequeñas (y por lo general de menor interés) son necesarios muchos más sujetos 5. 1.6. Importancia del tipo de categorías de clasificación
Tratando de diseños factoriales es importante recordar que las categorías de clasificación clasificación (variables independientes) independientes) pueden ser: a) Fijas (escogidas según criterio del investigador), b) Aleatorias (escogidas aleatoriamente aleatoriamente de una población mayor); c) Mixtas (una categoría fija y otra aleatoria). Del hecho de que las categorías sean fijas o aleatorias: 1. No depende el método que vamos a seguir, que es el mismo; 2. Sí depende la generalización de las conclusiones, que será mayor con categorías aleatorias. Con categorías fijas, las conclusiones son aplicables en principio a las categorías empleadas. 3. Sí va a depender el denominador de la razón F empleado en cada caso, como veremos después (en la tabla 4). En el caso de categorías fijas (el más frecuente) el denominador va a ser siempre el mismo que ya hemos visto en el análisis de varianza para varias muestras independientes (es decir, los cuadrados medios dentro de los grupos), por lo que esta distinción entre tipos de categorías no es en principio especialmente especialmente importante. Se trata sin embargo de conceptos que conviene recordar y que a la vez sugieren posibilidades de investigación. En investigación educacional (y de otro tipo) podemos tener categorías aleatorias si tenemos, como factor o
5 El número de sujetos en cada clasificación lo tratamos en el anexo VI y también en el documento Tamaño de la muestra: ¿Cuántos sujetos necesitamos? http://www.upco.es/personal/peter/investigacion/Tama%F1oMuestra.pdf . Estos criterios orientadores están adaptados de las extensas tablas de Kirk (1995:401 y tabla E.15). Análisis de varianza con dos criterios de clasificación (diseños factoriales)
8
categoría de clasificación, centros, aulas, profesores, etc., seleccionados aleatoriamente de una población mayor. Es importante caer en la cuenta que son las categorías de clasificación, y no los sujetos, las que pueden ser o no ser escogidas aleatoriamente. Los sujetos, cuyos resultados (variable dependiente) se van a analizar, deben asignarse aleatoriamente a los diversos subgrupos si se pretende que el diseño se aproxime más a lo experimental. Con muestras aleatorias es más legítimo generalizar las conclusiones a la población porque así se controlan otras variables desconocidas desconocidas que podrían contaminar o explicar los resultados. 2. Método 2.1. Disposición de los datos
3):
En el ejemplo que nos va a servir para exponer el método 6 tenemos dos factores (tabla
1. Factor A (métodos) dividido en tres niveles (tres variantes metodológicas). metodológicas). 2. Factor B (profesores) ( profesores) dividido en cuatro niveles (cuatro profesores). En la tabla 3 aparecen los datos de los sujetos según pertenezcan a un profesor (B 1, B 2, B3 y B4) y a un método determinado (A 1, A2 y A3). En este hipotético caso consideramos que ambas categorías son fijas: los métodos han sido escogidos con criterios lógicos y los profesores suponemos que son simplemente los que estaban disponibles para participar en una investigación; no han sido escogidos aleatoriamente aleatoriamente de una población mayor de profesores. Tenemos por lo tanto 12 combinaciones profesor-método. En cada combinación hay cinco alumnos Es conveniente disponer los datos con claridad, en un cuadro de doble entrada según los dos criterios de clasificación, en el que aparezcan las puntuaciones directas de todos los sujetos, tal como aparece en la tabla 3. Incluso haciendo todos los cálculos con un programa de ordenador, es útil tener in mente, en éste y otros modelos de análisis de varianza, cómo se disponen los datos.
6 Los datos los tomamos del ejemplo que presentan Guilford y Fruchter (1973) para explicar este modelo de análisis de varianza (el procedimiento que seguimos aquí es distinto, semejante a los ya vistos); modificamos la designación de las variables para utilizar términos que nos resultan más familiares (métodos y profesores). Análisis de varianza con dos criterios de clasificación (diseños factoriales)
9
profesores (factor B)
Profesor B1 Media desviación Profesor B2 Media desviación Profesor B3 Media desviación Profesor B4 Media desviación Medias de los métodos (A)
métodos (factor A) A1 6 4 2 6 2
A2 4 1 5 2 3
A3 4 2 2 1 1
MA1B1 = 4 1.789 8 3 7 5 2 MA1B2 = 5 2.280 7 6 9 8 5 MA1B3 = 7 1.414 9 6 8 8 9 MA1B4 = 8 1.095
MA2B1 = 3 1.414 6 6 2 3 8 MA2B2 = 5 2.191 9 4 8 4 5 MA2B3 = 6 2.098 7 8 4 7 4 MA2B4 = 6 1.673
MA3B1 = 2 1.095 3 1 1 2 3 MA3B2 = 2 .894 6 4 3 8 4 MA3B3 = 5 1.789 6 5 7 9 8 MA3B4 = 7 1.414
MA1 = 6
MA2 = 5
MA3 = 4
Medias de B
MB1 = 3
MB2= 4
MB3 = 6
MB4 = 7
Media y σ total Mt = 5 σt = 2.4966
Tabla 3 2.2. Visión global del proceso
Los cálculos que vamos a hacer los dividimos en tres tipos: cálculos previos, análisis de varianza en sentido propio y análisis complementarios. complementarios. 1º Cálculos previos
Van a ser los mismos que en otros procedimientos análogos (medias, desviaciones, varianza de medias…)
El cálculo de las desviaciones típicas de las medias puede parecer poco usual, pero ya hemos visto que simplifica mucho las operaciones y ahorra tiempo si no se utiliza directamente un programa de ordenador. Ya hemos indicado además en otra ocasión que propiamente no se trata de calcular desviaciones o varianzas de medias, sino de todos los sujetos, pero asignándoles como puntuación individual la media de su grupo; como los grupos son de idéntico tamaño basta calcular la desviación de las medias. Estos cálculos se hacen con rapidez con una calculadora corriente con programación estadística o utilizando una hoja de cálculo.
Análisis de varianza con dos criterios de clasificación (diseños factoriales)
10
2º Cálculos específicos del análisis de varianza.
A partir de los cálculos precedentes (desviaciones típicas de medias) se calculan con facilidad las Sumas de Cuadrados, que suele ser lo más laborioso en el análisis de varianza, y el resto de las operaciones. 3º Análisis complementarios.
Frecuentemente van a ser coeficientes coeficientes de asociación para ver la importancia relativa de las distintas fuentes de varianza; también podemos hacer los contrastes posteriores que resulten de interés (con sus correspondientes tamaños del efecto). Desde el comienzo debemos tener a la vista la tabla de resultados (tabla 5), que es semejante a las que encontramos en otros modelos de análisis de varianza. Más adelante presentamos un resumen de todo el procedimiento de análisis (tabla 6), y puede resultar útil verlo desde el principio, ya que es semejante a otros procedimientos de análisis de varianza con los que ya estamos familiarizados. Aunque vamos a explicar el proceso de manera muy pormenorizada, se puede ver de un golpe de vista observando la tabla 4 (datos y cálculos previos ya hechos) y la tabla 6 (tabla de resultados con las fórmulas incluidas); estas dos tablas pueden ser suficientes, como referencia, para llevar a cabo todo el proceso. El proceso completo, lo que vamos a hacer o podemos hacer, lo sintetizamos de esta manera: 1. Análisis de varianza propiamente dicho, dicho, que nos va decir qué fuentes de variación son estadísticamente estadísticamente significativas (razones F). 2. Coeficientes del tipo ω2 o η2 que nos van a permitir apreciar la relevancia e importancia práctica de los resultados. Representación gráfica de los resultados como ayuda a la interpretación; ya veremos 3. Representación cómo hacerla. 4. Contrastes posteriores en el caso de que sean necesarios o nos parezcan convenientes, y el tamaño del efecto al comparar dos medias entre sí.. 5. Interpretación global de los resultados, incluyendo valoraciones e interpretaciones cualitativas, conclusiones, etc. 2.3. Cálculos previos
Estos cálculos previos facilitan los cálculos de las Sumas de Cuadrados. Se trata simplemente del cálculo de medias y desviaciones típicas (suponemos que estos cálculos se hacen al menos con calculadora programada. 1º Cálculo de medias y desviaciones
En la tabla 3 tenemos ya calculadas estas medias y desviaciones: 1) Media y desviación de cada uno de los subgrupos (de las 12 combinaciones AB) 2) Media de cada columna (tres medias; métodos, factor A) 3) Media de cada fila (cuatro medias; profesores, factor B) 4) Media y desviación de los totales (de los 60 datos) Análisis de varianza con dos criterios de clasificación (diseños factoriales)
11
La desviación típica de todos los datos (de N) en realidad no nos es necesaria; es útil para calcular la suma de cuadrados total, que es igual a la suma de las otras sumas de cuadrados. Esta suma de cuadrados total nos permite comprobar que las otra sumas de cuadrados están bien hechas. La media total (de N = 60; media de las medias de A o de B) tampoco nos es necesaria; es útil si vamos a calcular la desviación típica de los totales siguiendo el procedimiento explicado en el Anexo III. 2º Cálculo de varianzas de medias
Estas varianzas (calculadas dividiendo por N, no por N-1) nos van a simplificar el cálculo de las sumas de cuadrados (en realidad ya sabemos que se trata de varianzas calculadas en toda la muestra, pero asignando a cada sujeto no la puntuación obtenida sino la media de su grupo; al tratarse de grupos de idéntico tamaño nos basta calcular las varianzas de las medias). 2 1) Varianza de las medias de los niveles del factor A σ MA = .8162= 0.8858 (métodos, tres medias): 2 2) Varianza de las medias de los niveles del factor B σ MB = 1.5812 = 2.50 (profesores, cuatro medias): 2 3) Varianza de las medias de todas las combinaciones AxB σ MAxB = 1.8712 = 3.50 (doce medias) Si tenemos desde el principio una visión global del proceso, podemos ir directamente al cálculo de las Sumas de Cuadrados, que veremos enseguida. Los resultados se pueden ir poniendo directamente en la tabla de resultados (tabla 5). En casi todos los casos se trata de multiplicar las varianzas de las series de medias por el número total (N) de sujetos. 2.4. Cálculos propios del análisis de varianza 2.4.1. Sumas de Cuadrados (SC)
A partir de los datos que ya tenemos vamos a hacer todos los cálculos del análisis de varianza que aparecerán en la tabla 5 (tabla de resultados) , pero que iremos presentando por partes. En la práctica, y según vamos calculando las varianzas necesarias, podemos ir directamente a la tabla de resultados, pues las operaciones que vamos a hacer son muy sencillas (resumidas en la tabla 6). Para calcular las diversas varianzas (o Cuadrados Medios, CM) necesitamos calcular el numerador (o Suma de Cuadrados) y el denominador (o Grados de Libertad, gl). Las Sumas de Cuadrados las calculamos calculamos multiplicando las varianzas (las desviaciones ya calculadas elevadas al cuadrado) por el número total de sujetos, ya que todos ellos contribuyen a todas las varianzas (en este caso N = 60): Sumas de Cuadrados (o numerador) correspondiente a la varianza de: 1. El total
SCt = Nσ 2t
= (60)(2.4966)2 =
2. Factor A (métodos)
SCA= Nσ A2
= (60)(.816)2 =
40
3. Factor B (profesores)
SCB = Nσ B2
= (60)(1.581)2 =
150
Análisis de varianza con dos criterios de clasificación (diseños factoriales)
374
12
4. Interacción entre los dos factores, o variabilidad (diferencias en los resultados) debida a las diversas combinaciones entre profesores y métodos y que simbolizamos como AxB, 2 - (SCA+ SCB) = (60)(1.871)2 - (150 + 40) = 20 SCAxB = Nσ AxB 5. Dentro de los grupos , o residual; variabilidad dentro de los 12 subgrupos una vez eliminada la variabilidad debida a los métodos, a los profesores y a la interacción entre métodos y profesores. Esta varianza residual es la varianza dentro de los grupos (de todas las combinaciones AB). Podemos calcularla de dos maneras: 1) A partir de la suma de cuadrados del total SCdentro = SCt - (SCA + SCB + SCAxB) = 374 - (150 + 40 + 20) = 164 2) Esta suma de cuadrados dentro de los grupos también se puede calcular directamente, y puede servir de comprobación, a partir de las varianzas dentro de los grupos (12 en este ejemplo) si las hemos calculado previamente previamente 7: se suman y se multiplica multiplica esta suma por el número de sujetos que hay en cada grupo: SCdentro= n( σ12 + σ 22 + …σ 2n ) Las fórmulas para calcular las Sumas de Cuadrados (o numeradores de las varianzas) están puestas también en la tabla 6. Podemos comprobar que la suma de las sumas de cuadrados parciales es igual a la suma de cuadrados total; simplemente hemos descompuesto el numerador de la varianza total. 2.4.2. Grados de libertad (gl)
Los grados de libertad van a ser el denominador de cada varianza. El determinar los grados de libertad que corresponden a cada varianza es muy sencillo: 1. Del factor A (métodos) A-1 = (3-1) = 2 2. Del factor B (profesores) B-1 = (4-1) = 3 3. De la interacción (AxB) (A-1)(B-1) = (3-1)(4-1) = 6 4. Dentro de los grupos N -k = (60 – 12) = 48 5. Del total N-1= (60-1) = 59 Podemos verificar que los grados de libertad del total es igual a la suma de todos los demás. 2.4.3. Varianzas o Cuadrados Medios (CM)
Dividiendo la Suma de Cuadrados por los Grados de Libertad tenemos las diversas varianzas en las que hemos descompuesto la varianza total, tal como están ya calculadas en la
7 Recordamos que la suma de las varianzas se calcula con rapidez introduciendo en la calculadora (con programación estadística) todas las desviaciones típicas; la suma de las varianzas la obtenemos en la función ∑x2 Análisis de varianza con dos criterios de clasificación (diseños factoriales)
13
tabla 5, y que muestra los resultados finales del análisis de varianza. Normalmente Normalmente es la única tabla que se presenta pues allí están los datos que permitirán interpretar las conclusiones. conclusiones. Como en el caso de varias muestras independientes, si hubiéramos calculado en los 12 subgrupos las desviaciones típicas dividiendo por N-1, los cuadrados medios dentro de los grupos (denominador de la razón F) es simplemente la varianza media de los grupos 2 (Σσ n-1 /k). 2.4.4. Comparación o contraste de varianzas (razón F)
Finalmente comparamos las varianzas de interés (las de los factores y su interacción) con la varianza que podemos considerar como aleatoria, para comprobar qué fuentes de significativas o superiores a lo que se puede esperar por azar. varianza podemos considerar significativas En estos planteamientos tenemos tres fuentes de varianza que nos interesa examinar: 1) La varianza debida al factor A (métodos) 2) La varianza debida al factor B (profesores) 3) La varianza debida a la interacción entre los dos factores (A x B). Es decir, deseamos calibrar cuál es el influjo de las dos variables que hemos utilizado para clasificar a los sujetos (y que genéricamente llamamos aquí factor A y factor B, en este caso métodos y profesores), y también el influjo de la relación entre las dos variables. En una palabra: entre los sujetos tenemos diferencias (varianza, expresada en la varianza total), y nos preguntamos ¿Cuáles de estas tres fuentes de diferencias son importantes, por encima de lo puramente casual? Estas tres varianzas van a ser el numerador de otros tantos cálculos de la razón F . El denominador será el término de comparación. Compararemos cada una de las tres varianzas con la varianza que podamos considerar como aleatoria, la que hubiéramos encontrado de no existir lo específico de los métodos, los profesores y su interacción que es precisamente lo que estamos investigando. Ésta es la varianza que hemos denominado antes dentro de los grupos, y que quizás con más propiedad puede denominarse varianza residual. Sin embargo esto no es siempre así, el término apropiado de comparación va a depender de que las categorías de clasificación sean fijas, aleatorias o mixtas. En la tabla 4 exponemos cual debe ser el denominador de la razón F 8. En nuestro ejemplo se trata de un modelo de categorías fijas, por lo que en todos los casos el denominador o término de comparación será CM dentro o la varianza (Cuadrados Medios) dentro de los grupos o residual. Si en este ejemplo los profesores hubieran sido escogidos aleatoriamente aleatoriamente de un conjunto mayor, el factor B sería una categoría aleatoria, pero suponemos que se trata de los profesores que estaban disponibles para hacer esta investigación.
8 La justificación puede verse en Guilford y Fruchter (1973:257) Análisis de varianza con dos criterios de clasificación (diseños factoriales)
14
Numerador, o varianza cuya
significación deseamos comprobar
Denominador (varianza aleatoria), o término de
comparación del numerador Modelo de categorías fijas
CMA............................................................................ CMB............................................................................ CMdentro en todos los casos CMAxB .................... ..................... ...................... ........
Modelo de categorías aleatorias
CMA................................................. CMAxB CMB ................................................. CMAxB CMAxB ............................................. CMdentro
Modelo de categorías mixtas
CM de la categoría aleatoria ............ CMdentro CM de la categoría fija .................... CMAxB CMAxB .............................................. CMdentro
Tabla 4, denominador de la razón F 2.4.5. Resultados finales: tabla de resultados
Los resultados finales del análisis de varianza se ponen en una tabla, tal como lo hacemos ahora en la tabla 5. SC
gl
numerador
denominador
Factor A (métodos)
40
2
factor B (profesores)
150
3
interacción AxB
20
6
grupos
164
48
total
374
59
Origen de la variación
2
CM = σ = 40 2
dentro de los
SC gl
= 20
150 = 50 3 20 = 3.32 6 164 = 3.42 48
F= 20 3.42
σ
2 2
p
= 5.85
< .01
σ
50 = 14.50 3.42 3.32 = .97 3.42
< .01 no sign.
Tabla 5 2.4.6. Interpretación
1. La varianza debida a la combinación profesor-método es prácticamente nula; la variabilidad (diferencias) en los resultados no se debe a determinadas combinaciones profesor-método (no hay profesores que funcionen especialmente mejor o peor que los demás con un determinado método). 2. Las varianzas originadas tanto por los profesores como por los métodos son ambas significativas; si hay diferencias es porque los profesores son distintos y también porque los métodos son distintos. Hay profesores más eficaces (con cualquier método) y métodos más eficaces (con cualquier profesor). 3. La mayor variabilidad se debe con mucho a los profesores (factor B), independientemente independientemente del método que utilicen. Sin embargo si lo que se deseaba probar era que los métodos son distintos en eficacia, que no da lo mismo uno que otro, esto puede darse por Análisis de varianza con dos criterios de clasificación (diseños factoriales)
15
probado, porque la varianza de los métodos (factor A) es significativamente superior a cero (hemos obtenido una F= 5.85 y el valor necesario que vemos en las tablas de la F es 5.08). Aun así el peso de los profesores, en los resultados finales, parece mayor que el de los métodos. Para analizar e interpretar mejor los resultados haremos después algún cálculo adicional. 2.4.7. Resumen del procedimiento
El procedimiento puede parecer a primera vista un tanto complejo, pero si se examina paso a paso se advierte enseguida su simplicidad. La tabla 6 puede ser una referencia de uso cómodo para hacer todos los cálculos con rapidez, si estamos familiarizados con los símbolos : N= Número total de sujetos n= Número de sujetos en cada grupo 2 σ MA = Varianza de las medias del factor A (medias de las tres columnas) 2 σ MB = Varianza de las medias del factor B (medias de las cuatro filas) 2 σ MAxB = Varianza de las medias de todos los subgrupos (medias de los doce subgrupos) 2 Σσ dentro = Suma de las varianzas de todos los subgrupos σ 2t = Varianza de los totales (de todos los sujetos como si se tratara de un solo grupo) tabla de resultados:
Origen de la variabilidad
Suma de Cuadrados
Grados de libertad
Factor A
2 SCA = Nσ MA =
A-1=
Factor B
2 SCB = Nσ MB = 2 SCAxB = Nσ MAB - (SCA + SCB) =
B-1=
AxB (interacción AxB) error, dentro de
2 SCdentro = nΣσ dentro =
Cuadrados Medios Razón F
p
(A-1)(B-1) = N - k =
los grupos Variabilidad total SCtotal = Nσ 2t =
N - 1 = Tabla 6
3. Análisis adicionales
Vamos a distinguir dos tipos de análisis complementarios: 1º Coeficientes de asociación, 2º Contrastes entre medias, con sus correspondientes tamaños del efecto Veremos además cómo hacer una representación gráfica de los resultados, que es muy útil como ayuda a la interpretación y para comunicar los resultados. No hay que hacer siempre todo lo que es posible hacer, sino lo que aporte en cada planteamiento planteamiento información útil.
Análisis de varianza con dos criterios de clasificación (diseños factoriales)
16
3.1. Coeficientes de asociación
Una razón F significativa nos indica que una determinada fuente de varianza (que corresponde a la variable puesta en el numerador de la razón F) se relaciona con las diferencias en la variable dependiente (la que hemos medido en los sujetos) más de lo que cabría esperar por azar: la variabilidad observada en la variable dependiente se puede atribuir a las variables del numerador de la razón F. Sin embargo no es fácil comparar entre sí dos F significativas; aunque sus valores sean muy distintos también lo son los grados de libertad. Con frecuencia es suficiente comprobar la proporción de varianza atribuible a cada variable (o a su interacción si resulta significativa). Esto nos lo indica el coeficiente ω2 o el coeficiente η2 (sus valores oscilan entre 0 y 1). 3.1.1. Coeficiente
2
Las fórmulas del coeficiente ω2 están indicadas en la tabla 7, junto con los resultados correspondientes a este ejemplo (podemos observar que el denominador es siempre el mismo). Estimación de la proporción de varianza atribuible
Valor del coeficiente ω2
a:
Factor A (métodos)
2 = ωΑ
Factor B (profesores)
ω 2Β
La interacción (AxB)
=
2 = ω ΑΒ
Resultados (en este ejemplo)
SC A - (A- 1)(CM )(CM dentro ) CM dentro + SC total
[1]
2 ωΑ
SC B -(B-1)(CM dentro ) CM dentro + SC total
[2]
ω 2Β
SC AxB - (A -1)(B -1)(B -1)(C -1)(CM M dentro ) [3] CM dentro + SC total
2 ω ΑΒ
=
40 − ( 2)(3.42) = .088 3.42 + 374
=
150 − (3)(3.42) = .370 3.42 + 374
= 20−( 2)(3)(3.42) =-.001 3.42+374
Tabla 7 Si algún valor de ω2 es negativo se interpreta como cero. Estas fórmulas son apropiadas solamente cuando: 1º El número de sujetos es el mismo en cada clasificación 2º Se trata de muestras independientes 3º En diseños o análisis de categorías fijas (como suele ser frecuente). En este ejemplo podemos ver que una proporción apreciable de la varianza del factor B (los profesores) está asociada a la variable dependiente (las puntuaciones analizadas). La proporción de varianza correspondiente al factor A (métodos) es muy pequeña. Estas proporciones se comparan entre sí y se interpretan mejor que si sólo disponemos de los valores de la razón F. Si este ejemplo fuera real concluiríamos que la fuente importante de varianza (de las diferencias en lo que hayamos medido) está sobre todo en los profesores, no tanto en los diversos métodos. Ahora podríamos simplemente fijarnos en las medias de los distintos profesores (o de los métodos si fuera ése el caso). La proporción de varianza que se puede atribuir a la interacción puede considerarse igual a cero, ya que su F correspondiente no llega a 1.
Análisis de varianza con dos criterios de clasificación (diseños factoriales)
17
Este coeficiente ω2 no es extrapolable; solamente se refiere a los datos analizados, y sólo puede utilizarse con las categorías fijas. Si se trata de categorías aleatorias (y si una de ellas es aleatoria también lo es la interacción a estos efectos) las fórmulas que se utilizan son las mismas del análisis de varianza para varias muestras relacionadas r elacionadas.. 3.1.2. Coeficiente
2
También puede utilizarse el coeficiente η2
η2 =
SCx SCtotal
[4]
SCx simboliza cualquier suma de cuadrados (de los factores y de la interacción). El valor de η2 tiene un sesgo positivo y suele ser bastante mayor que el de ω2 por lo que no son comparables entre sí. En nuestro ejemplo tenemos:
η2 (A) = η2 (B) = η2 (AxB) =
40 = .106 374 150 = .40 374
20 = .053 374
Una variante de interés de este coeficiente es eta al cuadrado parcial, que nos indica la proporción de varianza asociada a un factor (o a la interacción) neutralizando la varianza debida a otras fuentes (otros factores o su interacción) 9: SC x [5] η2 parcial = SC x + SC dentro Si deseamos conocer la proporción de varianza asociada al factor B (profesores) prescindiendo del influjo del método, tenemos: η2 (B) parcial= 150 = .477 150 + 164 Observamos que ahora η2 correspondiente a B (profesores) es ligeramente mayor si neutralizamos el efecto del método (como si todos fueran igualmente eficaces). Estos coeficientes ( ω2 o η2) se deberían utilizar rutinariamente como complemento al análisis de varianza. Resultados (valores de F) estadísticamente significativos son compatibles con una relación muy baja entre la variable independiente y la variable dependiente. Si la variable independiente explica menos del 5% de la varianza de la variable dependiente, se trata de una relación muy baja aunque sea real (no casual…). Para valorar las magnitudes de estos coeficientes ya se dieron algunas indicaciones a propósito del análisis de varianza para varias muestras independientes; en cualquier caso siempre se pueden comparar entre sí los coeficientes dentro de un mismo planteamiento. Resultados significativos pero que explican una proporción de varianza muy baja, pueden indicar que quizás habría que refinar la metodología (si se trata de un diseño experimental); o 9 Jaccard (1998:38). En el mismo lugar pueden verse otros coeficientes. Análisis de varianza con dos criterios de clasificación (diseños factoriales)
18
quizás haya que redefinir los conceptos o ajustarlos más. La proporción de varianza explicada en un estudio dado está afectada por la variabilidad (varianza) no controlada, debida a variables extrañas. Por esta razón más que buscar valores absolutos altos, es más útil comparar unos coeficientes con otros y comprobar cuál es la importancia relativa de estas fuentes de varianza. 3.2. Contrastes posteriores
Es frecuente limitarse a calcular los distintos coeficientes de asociación ( η2, ω2), pero también podemos hacer los contrastes posteriores que sean de interés 10. Vamos a distinguir dos situaciones: 1) En tablas 2x2, cuando los criterios de clasificación clasificación son solamente dos y cada uno está dividido en dos niveles; 2) En tablas nxn, cuando al menos uno de los dos factores está dividido en más de dos categorías. 1º En tablas 2x2, con sólo dos niveles en cada categoría. En estos casos los contrastes posteriores son innecesarios. Si por ejemplo la razón F del factor A es estadísticamente, habrá una diferencia clara entre sus dos niveles A 1 y A2. Lo mismo sucede con el otro factor. Si la interacción es significativa, esto quiere decir que uno de los dos niveles de un factor es mayor que el otro. En todos estos casos sólo interesa comparar dos medias entre sí, y si la razón F es significativa, ya sabemos que una media es significativamente significativamente mayor que la otra sin hacer más contrastes (sí nos puede interesar añadir el tamaño del efecto).
2º En tablas nxn, cuando tenemos al menos un criterio de clasificación (o factor) dividido en más de dos niveles. En estos casos sí pueden hacernos falta los contrastes posteriores apropiados. En algunos casos son estos contrastes los que permiten llegar a conclusiones más interpretables: cuando tenemos más de dos niveles en alguno de los factores y la varianza correspondiente a alguno de ellos o la de la interacción es significativa, tendremos más de dos medias y será importante ver dónde está la diferencia. En este cuadro tenemos el planteamiento clásico de un análisis de varianza, con dos factores principales (A y B); el factor A está dividido en tres niveles y el factor B en dos (tabla 8). Factor A A1 A2 A3 medias de B B1 A1B1 A2B1 A3B1 B1 Factor B B2 A1B2 A2B2 A3B2 B2 medias de A A1 A2 A3 Tabla 8 Con este planteamiento obtenemos cuatro varianzas o cuadrados medios (de los dos factores principales, A y B, de la interacción, AxB, y del término del error o varianza dentro
10
Pueden verse en monografías más especializadas, como Toothaker (1993). Análisis de varianza con dos criterios de clasificación (diseños factoriales)
19
de los grupos) y tres razones F al dividir las varianzas de A, B y AB por la varianza del término del error (dentro de los grupos, aleatoria). Estas razones F nos dirán si son significativas las diferencias debidas a A, a B y a AxB (o a una combinación entre niveles de factores). Los contrastes posteriores que nos pueden interesar son entre dos tipos de medias: a) Entre distintos niveles del mismo factor b) Entre las medias del mismo nivel de un factor. 1º. Diferencias entre los diversos niveles de A o de B; es decir, diferencias entre niveles del mismo factor.
En el esquema anterior podríamos comparar A1 con A2 , etc. A veces estas comparaciones pueden ser innecesarias cuando sólo tenemos dos medias que contrastar. Si en el esquema anterior la razón F correspondiente al factor B es significativa, esto quiere decir, sin necesidad de más contrastes, que entre las dos medias correspondientes a B, B1 y B2 , existe una diferencia estadísticamente significativa, porque sólo tenemos dos medias. En cambio si la razón F correspondiente al factor A es significativa, podemos encontrar encontrar diferencias entre entre A1 y A2 , entre A1 y A3 , y entre A 2 y A3 . En este caso sí necesitaremos hacer los contrastes posteriores si nos interesa saber entre qué niveles de A hay una diferencia estadísticamente significativa. 2º Si la varianza (cuadrados medios) correspondiente a la interacción es estadísticamente estadísticamente significativa, significativa, nos puede interesar comparar entre sí diversas combinaciones de AB. Tenemos 6 combinaciones distintas de AB, de donde nos salen 15 posibles comparaciones [(6 x 5)/2], aunque ya veremos que en este caso nos interesa hacer menos comparaciones de las que es posible hacer. 3.2.1. Contraste entre las medias de niveles del mismo factor
Cuando la razón F correspondiente a uno o a los dos factores es estadísticamente significativa significativa nos puede interesar comparar los diversos diversos niveles de A entre sí ( A 1 , A2 , etc.). El procedimiento que exponemos es el adecuado para hacer estas comparaciones, pero no lo es para comparar una media de un nivel de A con otra de otro nivel B (y tampoco suele ser de especial interés). Hay que advertir que si la interacción es estadísticamente significativa, estas comparaciones comparaciones pueden no interesar. Concluir con un este método es mejor que otro sin añadir pero sólo en esta condición o con este grupo, no es decir mucho, e incluso puede inducir a error. Y es eso lo que quiere decir que la interacción es significativa: que entre los niveles de un factor hay diferencias (por ejemplo entre A 1 y A2), pero no en general, sino en un nivel del otro factor (por ejemplo, A 1 y A2 difieren en B 2 pero no en B 1). Para comparar entre sí las medias de los distintos niveles de un factor tenemos los mismos procedimientos ya vistos para varias muestras independientes (Scheffé, Tukey, etc.), pues estamos en ese caso. Posiblemente el contraste más común es el de Tukey, y es el que recomiendan algunos autores en esta situación (Toothaker, 1990):
Análisis de varianza con dos criterios de clasificación (diseños factoriales)
20
q=
M1 - M 2 CM dentro n
[6]
Podemos también calcular la Diferencia Estadísticamente Significativa (DHS), despejando la diferencia entre las medias en la fórmula [6]. a) n es el número de datos (o de sujetos) que sumamos para calcular cada media y no el número de sujetos que hay en cada clasificación. Naturalmente en las dos medias que contrastamos el número de sujetos es el mismo. En estos planteamientos de análisis de varianza (diseños factoriales, dos o más criterios de clasificación) el número de sujetos en cada clasificación es el mismo. Si en este ejemplo tuviéramos cuatro sujetos en cada clasificación (cuatro en A 1B1 y cuatro en A 1B2), el n de la fórmula [6] sería ocho (si estamos comparando A1 con A 2 ). b) El valor de q resultante lo consultamos en las tablas de q (rango estudentizado) teniendo en cuenta cuál es el número de medias (k) y cuántos son los grados de libertad aquí. 1º El número de medias (k) es el número de niveles del factor correspondiente. Si estamos en este ejemplo comparando entre sí las medias de A, k = 3, porque tenemos tres medias en el factor A. 2º CMdentro es, como siempre en estos casos, el valor de los cuadrados medios del error o dentro de los grupos; lo que es distinto son los grados de libertad para para consultar las tablas de q. Los grados de libertad para consultar las tablas de q son igual a N-ab N: es el númerototal de sujetos. Si en cada clasificación tenemos cuatro sujetos, como tenemos seis clasificaciones, aquí tendríamos N = 4 x 6 = 24 sujetos a y b son el número de niveles (o subdivisiones) de los factores A y B. En este caso a = 3 y b = 2. Si tuviéramos N = 24, los grados de libertad serían 24 - (2x3) = 18. En las tablas buscaremos 18 grados de libertad (si no figuran en las tablas estos grados de libertad, buscamos el número inmediatamente inferior que encontremos). En realidad, y como en otros casos semejantes, los grados de libertad son Σ(n-1) o N - k (k número de grupos; ab es el número de grupos). Vamos a verlo con un ejemplo. En el ejemplo que nos ha servido para explicar este modelo de análisis de varianza (tabla 3) hemos visto que la F correspondiente a los métodos (factor A) es estadísticamente significativa. Tenemos tres medias de A y entre estas tres medias habrá diferencias estadísticamente significativas. Vamos a comparar la media de A 1 (= 6) con la media de A 3 (= 4). q=
M A1 - MA2 6 − 4 = = 4.83 CM dentro 3.42 20 n
3.42 son los cuadrados medios dentro (tabla 5) y 20 es el número de sujetos utilizados para calcular estas medias.
Análisis de varianza con dos criterios de clasificación (diseños factoriales)
21
En las tablas buscaremos el valor que corresponde a k = 3 (porque tenemos tres medias de A) y grados de libertad = 48 [N-ab = 60- (3x4)]. En los tablas no aparecen los 48 grados de libertad; nos quedamos con el número inmediatamente inmediatamente inferior, 40. Para k = 3 y 40 grados de libertad vemos estos valores de q: 3.44 (.05) y 4.37 (.01); en nuestro caso con q = 4.83 tenemos que p <.01, por lo que podemos afirmar la diferencia entre estas medias con mucha seguridad; el que la diferencia sea grande es una cuestión distinta (más adelante tratamos del tamaño del efecto). Si comparamos A 1 con A2 o A2 con A3 tendremos que q = 2.42 y p > .05. Una observación sobre procedimientos alternativos.
En textos y manuales de estadística aparecen a veces fórmulas aparentemente distintas pero que son equivalentes equivalentes y nos pueden confundir. Por ejemplo, para este mismo contraste de medias podemos encontrar esta fórmula (Toothaker, 1993): M 1 - M2 t' = [7] CM dentro x2 n Aquí se calcula un valor de t'; la diferencia con la fórmula de q [6] es ese "x 2" que aparece en el denominador de [7]. En este caso tendríamos que calcular los valores críticos de t', como en ocasiones semejantes, y que son: q Valores críticos de t' = [8] 2 El valor de q es el que venga en las tablas (para α = .05 y gl = N - ab, como antes). 6- 4 Aplicando los datos anteriores tenemos que t' = = 3.42 3.42 x2 20 3.44 Ahora tenemos que hallar los valores críticos críticos de t’: para p = .05, t’= = 2.43 2 4.37 para p = .01, t’ = = 3.09 2 Con t’= 3.42, nuestra conclusión es la misma (p<.01). Posiblemente es más cómodo calcular directamente directamente el valor de q y consultar las tablas. También podemos calcular directamente el valor de la diferencia necesaria (diferencia crítica) para rechazar la Hipótesis Nula; la que Tukey denomina diferencia honestamente significativa. Para esto, en la fórmula de q, nos basta despejar la diferencia del numerador y sustituir q por el valor que venga en las tablas: Diferencia crítica
=q
CM dentro n
[9]
En este caso, para localizar el valor de q en las tablas, tanto el valor de k (número de grupos o de medias) como el de los grados de libertad son los indicados anteriormente. anteriormente. Análisis de varianza con dos criterios de clasificación (diseños factoriales)
22
3.2.2. Contraste entre las medias dentro del mismo nivel de un factor (cuando la interacción es significativa)
Lo expuesto hasta ahora es el procedimiento para verificar si hay diferencias significativas entre las medias de los distintos niveles (medias de columnas entre sí y medias de filas entre sí). Pero también nos pueden interesar otras comparaciones. comparaciones. El comparar entre sí las distintas medias que encontramos en los diversos niveles de cualquier factor nos interesa cuando la interacción es significativa: un método puede ser superior a otro, pero solamente con una determinada duración, o un medicamento puede ser superior a otro, pero solamente en una determinada dosis o una determinada etapa de la enfermedad, etc. Vamos a suponer que A 1, A2 y A 3 son tres grupos de alumnos divididos según la edad (tres edades o cursos distintos) y B 1 y B2 son dos actividades didácticas (tabla 9, idéntica a la tabla 8):
método 1 (B1) método 2 (B2) (métodos) medias de los cursos (A) Factor B
1º (A1) A1B1 A1B2
A1
Factor A (cursos)
2º (A2) A2B1 A2B2
A2 Tabla 9
3º (A3) A3B1 A3B2
medias de los métodos (B)
método 1 ( B1 ) método 2 ( B2 )
A3
Supongamos que llegamos a esta conclusión: la razón F correspondiente al factor B (método o actividad) es significativa. Esto puede querer decir que un método, por ejemplo B 2, es mejor que el otro, B 1. Si la interacción no es significativa, la interpretación es que B 2 es mejor independientemente independientemente del curso (edad) de los alumnos. Suponemos ahora que además del factor métodos (B) también la interacción es significativa: en este caso el concluir simplemente que B 2 es mejor que B 1 no es decir mucho: es mejor pero según con qué alumnos. En este caso nos interesará contrastar las tres medias de B2 entre sí para ver en qué grupo o grupos es mejor el método B 2 pues B2 está implicado en los tres niveles de A: A 1, A2 y A3. Qué comparaciones interesa hacer cuando la interacción es significativa.
Como primer paso podemos inspeccionar la representación gráfica de los resultados (explicada en un apartado posterior) que nos aclarará la interpretación de manera intuitiva y nos dirá dónde pueden estar las comparaciones de interés. Cuando la interacción es significativa, los textos de nivel básico o intermedio suelen limitarse a recomendar la inspección estas representaciones representaciones gráficas (Oshima y McCarty, 2000) 11. En el esquema que nos sirve de ejemplo (A con tres niveles y B con dos), si queremos comparar entre sí todas las posibles combinaciones AB, como tenemos 6 grupos distintos tendremos (6x5)/2 = 15 comparaciones posibles. Con cuatro niveles en un factor y tres en el otro tendríamos 12 grupos distintos y (12x11)/2 = 66 contrastes posibles. Es claro que son muchas comparaciones y que posiblemente muchas no tienen especial interés.
11 Oshima y McCarty (2000) reconocen la falta de consenso entre autores sobre cómo hacer estos contrastes cuando la interacción es significativa y exponen diversos enfoques. Análisis de varianza con dos criterios de clasificación (diseños factoriales)
23
Por lo general no nos interesan todas las comparaciones posibles; lo que sí puede tener interés, y es lo que tratamos aquí, es comparar solamente las medias dentro de un mismo nivel: por ejemplo las comparaciones entre las tres B 2. Dicho de otra manera, las comparaciones que interesan son entre medias que pertenecen a la misma fila o a la misma columna ( filas filas y columnas son aquí los distintos niveles o subclasificaciones subclasificaciones de cada factor). Estas medias se denominan no confundidas (unconfounded) porque las diferencias entre ellas se deben solamente a un factor. Si por ejemplo hay diferencias entre las medias de A 1B1, A2B1, y A3B1, estas diferencias se deberán solamente a diferencias en A, porque mantenemos constante B 1. En el método expuesto aquí para hacer estas comparaciones suponemos que: a) Hay un idéntico número de sujetos en cada posible clasificación; b) Sólo se van a comparar entre sí medias que pertenecen al mismo nivel de un factor. El procedimiento va ser el mismo visto antes, pero van a ser distintos el valor de n que entra en la fórmula y el número de medias (k) para consultar las tablas (propiamente lo que cambia es el valor de k, que, como veremos, no va ser igual al número de medias, aunque número de medias suele ser la expresión que viene en las tablas). Fórmulas:
Como antes, podemos hallar el valor de q y consultar las tablas de q, o podemos calcular el valor de t', y ya sabemos que los valores críticos de t' son igual igual a q/ 2 , donde donde q es el valor que venga en las tablas según el número de grupos (k) y los grados de libertad correspondientes. Las fórmulas para comparar los subgrupos de dos en dos ya las hemos visto: M1 - M 2 los valores críticos de q los consultamos en q= [6] las tablas de la manera indicada más adelante CM dentro (tabla 10) n M1 - M 2 q t' = [7] los valores críticos de t' son = CM dentro 2 x2 n Una observación importante para estas dos fórmulas: n es el número de sujetos o de observaciones que sumamos para calcular cada media. Si en cada subclasificación hay cuatro sujetos, entonces n = 4. El principio es el mismo visto antes para contrastar las medias de los niveles entre sí (allí n era igual al número de sujetos que entran en la media de cada nivel). Para consultar las tablas de q, el número de medias, como hemos indicado, no es exactamente el número de medias; el valor de k va a estar en función del tamaño de la tabla. En la práctica basta consultar la tabla 10 que hemos confeccionado para estos casos 12.
12 La justificación de esta tabla la incluimos en el anexo V, que nos puede servir para ampliar la tabla si es necesario. Análisis de varianza con dos criterios de clasificación (diseños factoriales)
24
Tamaño de la tabla Valor de k para de dos factores consultar las tablas de q 2 x 2 .......... .............. ......... .......... .......... ......... 3 2 x 3 .......... .............. ......... .......... .......... ......... 5 2 x 4 .......... .............. ......... .......... .......... ......... 6 2 x 5 .......... .............. ......... .......... .......... ......... 8 3 x 3 .......... .............. ......... .......... .......... ......... 7 3 x 4 .......... .............. ......... .......... .......... ......... 8 3 x 5 .......... .............. ......... .......... .......... ......... 10 4 x 4 .......... .............. ......... .......... .......... ......... 10 4 x 5 .......... .............. ......... .......... .......... ......... 12 5 x 5 .......... .............. ......... .......... .......... ......... 15 Tabla 10 3.3. El tamaño del efecto en los diseños factoriales
Además de verificar entre qué medias tenemos una diferencia estadísticamente significativa, podemos calcular el tamaño del efecto para apreciar mejor la magnitud de la diferencia, como hacemos en otros planteamientos. Cuando solamente tenemos dos niveles en un factor y éste es significativo, ya sabemos que entre los dos niveles existe una diferencia estadísticamente significativa, y sin hacer ningún contraste adicional podemos pasar directamente al tamaño del efecto. Nos vamos a fijar en el tamaño del efecto cuando comparamos dos niveles del mismo factor; nos referimos fundamentalmente al factor que consideramos principal o de mayor interés13. La cuestión es qué desviación típica podemos poner en el denominador. Podemos distinguir dos situaciones. situaciones. 3.3.1. Cuando el factor secundario es una variable manipulada
Cuando el factor secundario o no principal es una variable manipulada, introducida, introducida, etc. por el investigador (como pueden ser modalidades, duraciones, circunstancias, etc.). En estos casos podemos utilizar en el denominador del tamaño del efecto la raíz cuadrada de los cuadrados medios dentro de los grupos de la tabla de resultados (tabla 5). Esa desviación típica (recordemos que los cuadrados medios son varianzas y su raíz cuadrada una desviación típica) no contiene la variabilidad producida por ese factor secundario cuya influencia en la variable dependiente mantenemos así constante. Este factor, en sí mismo, no suele tener un interés teórico especial. 3.3.2. Cuando el factor secundario es una característica natural de la población
Otras veces el factor secundario o no principal es una característica natural de la población a la cual queremos generalizar los resultados; quizás el caso más frecuente sea el género (o grupo étnico, o tipo de muestra, como clase social, etc.). En estos casos la desviación típica del denominador del tamaño del efecto sí debe incluir la variabilidad que se da naturalmente en ese factor. No debemos utilizar los cuadrados medios dentro de los grupos de la tabla de resultados (tabla 5) porque ésa es la
13 Un tratamiento más amplio del tamaño del efecto en el contexto del análisis de varianza puede verse en Cortina y Nouri (2000). Análisis de varianza con dos criterios de clasificación (diseños factoriales)
25
varianza residual, la que queda una vez eliminado el influjo de los dos factores y de su interacción y nosotros queremos incluir el influjo del factor secundario. Siempre que no queramos prescindir de la variabilidad producida por el factor secundario debemos utilizar la raíz cuadrada de los cuadrados medios dentro de los grupos pero la que hubiéremos obtenido haciendo un análisis de varianza unifactorial solamente con el factor principal . Esta desviación típica será mayor que en el caso anterior y el tamaño del efecto no quedará sobrestimado (en cualquier caso este procedimiento es más conservador y en caso de duda puede ser preferible). Para obtener estos cuadrados medios dentro de los grupos (luego utilizaremos la raíz cuadrada) tenemos dos caminos. 1º Hacer un análisis de varianza unifactorial con sólo el factor principal. Como solamente nos interesan los cuadrados medios dentro, realmente no necesitamos hacer el análisis de varianza completo, podemos calcularlos directamente. Con muestras de idéntico tamaño la fórmula es ésta: nΣσ 2 Cuadrados Medios dentro = N − k
n es el número de sujetos en cada nivel del factor σ es la desviación típica de cada nivel del factor k es el número de grupos (de niveles)
Lo vamos a ver utilizando los datos de la tabla 3; nos interesa calcular el tamaño del efecto al comparar las medias de los tres métodos. Los datos los tenemos en la tabla 11. A1 A2 A3 n 20 20 20 Media 6 5 4 2.3237 2.236 2.5099 σ Tabla 11 Si comparamos estos datos con los de la tabla 3, lo único que hemos tenido que hacer es calcular las desviaciones típicas de los tres niveles de A (de las columnas), y además caer en la cuenta de que n = 20 (número de sujetos en cada método). Aplicamos la fórmula de los cuadrados medios dentro: CM dentro
20(2.3237 2 + 2.236 2 + 5.099 2 ) = = 5.859, y σ = 5.859 = 2.42 60 − 3
Ésta es la desviación típica que utilizaremos en el denominador del tamaño del efecto; entre A1 y A3 tendremos d = (6-4)/2.42 = .826 (diferencia que podemos considerar grande). 2º Cálculo a partir de la tabla de resultados del análisis de varianza Los cuadrados medios dentro de un análisis unifactorial hecho con los niveles del factor principal (que es lo que nos interesa) podemos rescatarlos de la tabla de resultados del diseño factorial que ya tenemos (tabla 5). Nos basta calcular los cuadrados medios sumando todas las sumas de cuadrados y todos los grados de libertad excepto los correspondientes al factor principal (A); la fórmula es por lo tanto:
Análisis de varianza con dos criterios de clasificación (diseños factoriales)
26
CM dentro =
SC B + SC AxB + SC dentro 150 + 20 + 164 = = 5.859 gl B + gl AxB + gl dentro 3 + 6 + 48
Llegamos al mismo resultado con los dos procedimientos; éste segundo puede resultar más cómodo, pero es útil verificar que los dos son equivalentes. 4. La representación gráfica de los resultados como ayuda a la interpretación en los diseños factoriales
En un diseño factorial con dos factores principales tenemos tres posibles fuentes de variación sistemática: los dos factores principales, A y B, y su interacción. Además de interpretar directamente los valores de F, un sencillo gráfico nos puede ayudar en la interpretación de lo que está sucediendo y a comunicarlo con más claridad. Vamos verlo con unos ejemplos hipotéticos. Suponemos que los dos factores principales son: A1 A2 Factor A: método: trabajo en grupo con dos niveles o variantes: A1 con trabajo individual antes de la discusión en grupo B1 A1B1 A2B1 A2 sin tarea individual antes de la tarea grupal Factor B: tiempo, duración: B 1 media hora B2 A1B2 A2B2 B2 una hora La variable dependiente (la que hemos medido después de las actividades) puede ser satisfacción satisfacción por la tarea (o nivel de participación participación o de aprendizaje, etc.). En los gráficos puestos a continuación el eje de las abcisas (X) corresponde a uno de los dos factores principales; en este caso situamos en este eje los dos niveles del factor B (suficientemente (suficientemente distanciados para que el gráfico quede más claro). El eje vertical de las ordenadas (Y) corresponde a la variable dependiente (la que hemos medido). En este eje podemos situar algunos valores representativos (en este ejemplo ficticio ponemos de 1 a 8). En este espacio situamos los valores del otro factor principal, el factor A en este caso: situamos las medias de A1 y A2 correspondientes correspondientes a B 1 y B2 y unimos con una recta las medias de cada nivel (una recta representa a A 1 y la otra a A 2). Por razones de claridad sólo ponemos dos niveles en cada factor; naturalmente podrían ser más. Si hubiera tres valores de A (tres niveles), tendríamos tres rectas. Si tuviéramos además tres niveles de B las rectas correspondientes a los niveles de A serían probablemente quebradas. En cualquier caso estos gráficos añaden claridad informativa y ayudan a la interpretación, interpretación, sobre todo cuando la interacción es significativa. En cada extremo de las líneas que representan los dos niveles de A podríamos poner sus medias exactas, pero suele ser suficiente situar los valores en el eje vertical. También se puede prescindir de los números, que se supone que además figuran en otro lugar. En estos ejemplos vemos:
Análisis de varianza con dos criterios de clasificación (diseños factoriales)
27
8 7
A1 con tarea individual
6 5 4 3 2
A2 sin tarea individual
1
B1
B2
media hora
una hora
Figura 1 Figura 1. Claramente el método A 1 es superior al método A 2, cualquiera que sea la duración (factor B). Cuando las líneas son paralelas (o casi paralelas) es claro que la interacción no es significativa. Va a ser significativa la razón F correspondiente al factor A (A1 es claramente mayor que A 2). En cambio la razón F correspondiente al factor B no es estadísticamente significativo; B 1 y B2 no difieren entre sí; sus medias van a ser muy parecidas. 8 7
A1 con tarea individual
6 5 4 3 2
A2 sin tarea individual
1
B1
B2
media hora
una hora
Figura 2 Figura 2. En este caso tendríamos que apenas hay diferencia entre los métodos (factor A), pero sí las hay en el factor B, duración de la actividad. B 2 es superior a B1 independientemente independientemente de la actividad: una hora produce mejores resultados que media hora.
8 7
A1 con tarea individual
6 5 4 3 2
A2 sin tarea individual
1
B1 media hora
B2 una hora
Figura 3 Figura 3. Los dos métodos son parecidos en B 1, pero con una mayor duración (B 2) uno de los métodos, A 1, es claramente superior. Aquí la interacción es significativa: hay una Análisis de varianza con dos criterios de clasificación (diseños factoriales)
28
combinación AxB (A 1B2) claramente superior a las otras (A 1 > A 2 en B2). Cuando las líneas no son, más o menos, paralelas, la interacción está presente (poco o mucho).
8
A1 con tarea individual
7 6 5 4 3 2
A2 sin tarea individual
1
B1 media hora
B2 una hora
Figura 4 Figura 4. Las rectas no solamente no son paralelas, sino que se cruzan: un método es mejor con una duración (A 1 en B2) y el otro con la otra duración (A 2 en B1). La interacción va ser significativa e importante; la eficacia de los niveles un factor (A, los dos métodos) está en función de los niveles del otro (B). En un ejemplo como el sugerido por esta figura, la interacción sería la única fuente de varianza importante. En general cuando la interacción es significativa tienen menor interés (o muy poco interés) los factores tomados aisladamente aunque sus valores de F sean significativos. La eficacia de un nivel de un factor (el que un método sea mejor que otro en este caso) está mediatizada por su relación con el otro factor. Cuando demostramos que la interacción es significativa (y además grande …) es aquí donde tenemos que centrar la interpretación. Por ejemplo en la situación hipotética de la figura 3. Vamos a suponer que la razón F correspondiente a los métodos (A) es significativa y concluimos que A 1 es mejor que A 2… esa conclusión no tiene mayor interés y además puede inducir a error si no tenemos en cuenta y dejamos claro en la interpretación que A 1 es preferible a A 2 solamente en la condición B 2 Como ya hemos advertido antes, aunque todo esto podemos interpretarlo a partir de los 2 números (valores de F, de η , inspección de las medias, etc.), estos gráficos contribuyen a una mejor comprensión y comunicación de los resultados r esultados obtenidos. obtenidos. 5. Análisis de varianza para diseños factoriales en EXCEL y SPSS EXCEL. Este modelo de análisis de varianza lo tenemos en Herramientas - Análisis de datos Análisis datos Análisis de Varianza de dos factores con varias muestras por grupo.
Los datos se disponen en EXCEL como en una tabla nxn convencional, poniendo también los nombres o rótulos de filas y columnas. Se señala la tabla completa, incluidos los rótulos de filas y columnas. En el cuadro de diálogo en número de filas por muestra se pone el número de sujetos en cada subgrupo o clasificación. El resultado son los datos descriptivos de las muestras y la tabla de resultados convencional, convencional, sin contrastes posteriores ni otros cálculos complementarios. complementarios. SPSS. Este modelo de análisis de varianza lo tenemos en Analizar, Modelo lineal general, Univariante. Hay que indicar al programa qué variable va actuar como dependiente y en “factores fijos” se integran las dos variables independientes que queremos estudiar. Análisis de varianza con dos criterios de clasificación (diseños factoriales)
29
Este análisis de varianza es complejo complejo y conviene consultar manuales manuales específicos (puede verse Pardo Merino y Ruíz Díaz, 2005). No presenta la tabla de resultados convencional convencional por lo que, si interesa presentar esta tabla, se puede hacer fácilmente con EXCEL. El SPSS calcula los contrastes posteriores y los coeficientes coeficientes eta cuadrado de cada efecto. 6. Referencias bibliográficas
CORTINA, JOSE M. and NOURI, HOSSSEIN (2000). Effect Size for ANOVA Designs. Quantitative Applications in the Social Sciences. Thousand Oaks: Sage. ESCOTET , MIGUEL A., (1980). Diseño multivariado en psicología y educación. Barcelona: Ceac. GLASS, GENE V. y STANLEY, JULIAN C., (1974). Métodos Estadísticos Aplicados a las I nternacional.. Ciencias Sociales. Madrid, Prentice-Hall Internacional GUILFORD, J. P. y FRUCHTER , B., (1984). Estadística aplicada a la psicología y la educación, México: McGraw-Hill. [En Inglés: Fundamental Statistics in Psychology and Education, 1973. New York: McGraw-Hill]. JACCARD, JAMES (1998). Interaction Effecs in Factorial Analysis of Variance, Sage University Paper Series on Quantitative Applications in the Social Sciences. Thousand Oaks: Sage. IRK , R OGER OGER E., (1995). Experimental Design, Procedures for the Behavioral Sciences. K IRK Boston: Brooks/Cole. LINTON, MARIGOLD, GALLO JR .,., PHILLIP S. and LOGAN, CHERYL A., (1975). The Practical Statistician, Statistician, Simplified Handbook of Statistics . Monterey: Brooks/Cole. OSHIMA, T. C. and MCCARTY, FRANCES (2000). How Should We Teach Follow-Up Tests After Significant Interaction in Factorial Analysis of Variance? Paper presented at American Educational Research Association, New Orleans, April 2000 http://www2.gsu.edu/~ep http://www2 .gsu.edu/~epstco/aeraMain stco/aeraMain.pdf .pdf (consultado (consultado 22, Nov., 2009). TEJEDOR , FRANCISCO JAVIER , (1984). Análisis de varianza aplicada a la investigación en pedagogía y psicología. Madrid: Anaya UÍZ DÍAZ, M.A. (2005). Análisis de datos con SPSS 13 Base . Madrid: PARDO MERINO, A. y R UÍZ McGraw Hill TOOTHAKER , LARRY E., (1993). Multiple Comparison Procedures, Sage University Paper Series on Quantitative Applications in the Social Sciences. Newbury Park: Sage. Anexo. Análisis de Varianza (diseños factoriales) en Internet
Además de programas de ordenador como el SPSS y hojas de cálculo como EXCEL disponemos de programas en Internet. LOWRY, R ICHARD ICHARD, VASSAR STATS: Web Site for Statistical Computation,Vassar College, Poughkeepsie, Poughkeepsie, NY, USA; http://fac http://faculty.vassar.edu ulty.vassar.edu/lowry/VassarSta /lowry/VassarStats.html ts.html En el menu de la izquierda en ANOVA: Two-Way Analysis of Variance for Independent Samples.
Se trata del análisis de varianza con dos criterios de clasificación cada uno dividido entre dos y cuatro niveles. Se pueden introducir los datos o se pueden copiar de una tabla. También calcula el test de Tukey para los contrastes posteriores. En la misma dirección también están programadas algunas variantes de este análisis factorial, como 2x2x2 ANOVA for Independent Samples (tres criterios de clasificación clasificación con dos niveles cada uno) y otros.
Análisis de varianza con dos criterios de clasificación (diseños factoriales)
30
ANKIN Statistical Applets 2X2 Analysis of Variance for the statistical tests VADUM R ANKIN for a 2x2 factorial design. http://www.assumption.edu/users/avadum/applets/applets.html ; basta introducir la media, desviación típica (de la población, dividiendo dividiendo por n-1) y número de sujetos de los cuatro grupos. Estas direcciones se pueden encontrar en J OHN C. PEZZULLO'S HOME PAGE, http://statpages.org/JCPh http://sta tpages.org/JCPhome.html ome.html (en Interactive Statistics Pages). Pages ).
Análisis de varianza con dos criterios de clasificación (diseños factoriales)
Análisis de varianza para varias muestras independientes
© Pedro Morales Vallejo Universidad Pontificia Comillas, Madrid, Facultad de Ciencias Humanas y Sociales (Última revisión 2 de Junio de 2011).
Índice 1. Introducción............................................. Introducción..................................................................... ................................................ .......................................... .................. 2. Cuándo podemos utilizar la t de Student para comparar grupos de dos en dos ........ 2.1. Modificando Modificando los niveles de confianza: los contrastes de Bonferroni ................. 2.2. Condiciones Condiciones para utilizar utilizar la t de Student cuando tenemos más de dos dos muestras muestras 3. Análisis de varianza................................................... varianza........................................................................... ............................................... ......................... 3.1. Fases del proceso ............................................. ..................................................................... ................................................ ........................... ... 3.2. Procedimiento Procedimiento utilizando desviaciones típicas; justificación justificación ............................. ............................. 3.2.1. Procedimiento utilizando desviaciones típicas de las muestras ( σn)........ 3.2.2. Procedimiento utilizando desviaciones típicas de la población ( σn-1)...... 3.2.3. Procedimiento alternativo alternativo de análisis de varianza para varias muestras independientes independientes a) de idéntico tamaño y b) utilizando las desviaciones de la población ( σn-1)................................................................................. 4. Cálculos posteriores.................................. posteriores.......................................................... ................................................ ......................................... ................. 4.1. Contrastes posteriores entre las medias ............................................... .............................................................. ............... 4.1.1. Contraste de Scheffé............................. Scheffé.................................................... .............................................. ............................... ........ a) Valoración general .................................................................................. b) Procedimiento ......................................................................................... 1) Para contrastar las medias de dos muestras ...................................... 2) Utilizando un nivel de confianza más liberal ( α = .10) ..................... 3) Contrastes combinando medias de grupos ......................................... 4.1.2. Contraste Contraste de Tukey Tukey para muestras de idéntico idéntico tamaño (o muy parecido) . a) Valoración general ............................................................................... b) Procedimiento ....................................................................................... 1º La diferencia honestamente significativa (DHS Honestly Significant Difference) .............................................. 2º Cuando el número de sujetos es ligeramente desigual .................... 4.1.3. Contraste de Tukey-Kramer para muestras de distinto tamaño y varianzas iguales...................... iguales ............................................... .................................................. ....................................... .............. 4.1.4. Contraste de Games y Howell (GH) para muestras de distinto tamaño y varianzas desiguales..................................... desiguales.............................................................. ............................................ ................... 4.1.5. Contraste de Newman-Keuls................................... Newman-Keuls........................................................... ................................... ........... 4.1.6. Contraste Least Significant Difference (LSD) de Fisher............................ Fisher............................ 4.1.7. Contraste de Dunnett................................... Dunnett........................................................... ............................................... ....................... 4.1.8. Contrastes ortogonales ................................................ ......................................................................... ............................... ...... 4.1.9. Valoración de los los diferentes contrastes............................. contrastes...................................................... .........................
3 3 3 4 4 4 5 5 10 13 14 14 16 16 18 18 19 19 20 20 20 20 21 22 24 25 25 26 26 26
2
4.2. Relevancia práctica de los resultados: r esultados: proporción de varianza relacionada con la variable-criterio variable-criterio de clasificación clasificación y tamaño del efecto.............................. efecto.............................. 4.2.1. Proporción de varianza relacionada r elacionada con la variable-criterio de clasificación clasificación ................................................. .................................................... ... 2 ............................................................................. 4.2.1.1. El coeficiente coeficiente ω 1. Cuando los grupos son de idéntico tamaño ................................. 2. Cuando los grupos son de distinto tamaño .................................. 4.2.1.2. El coeficiente coeficiente η2 ............................................................................ 4.2.1.3. Valoración de estos coeficientes coeficientes .................................................. ...................................................... 4.2.2. El tamaño del efecto ............................................ ................................................................... ...................................... ............... 4.2.2.1. El El tamaño tamaño del efecto en en la diferencia entre dos medias ................. ................. 4.2.2.2. El tamaño del efecto como apreciación global de la magnitud de las diferencias entre todas las medias ......................................... ......................................... 5. Análisis de varianza cuando solamente conocemos conocemos los valores de las medias y de las desviaciones desviaciones típicas ................................................. .......................................................................... ..................................... ............ 5.1. Cuando el número de sujetos es distinto distinto en cada cada grupo..................................... grupo....................................... 5.2. Cuando Cuando el número de sujetos es el mismo en cada grupo...................... grupo ................................... ............. 6. Análisis de varianza para dos muestras independientes independientes....................... ............................................ ..................... 6.1. Utilizando Utilizando las las desviaciones desviaciones de las muestras.................................... muestras........................................................ .................... 6.2. Utilizando Utilizando las desviaciones desviaciones de las las poblaciones................... poblaciones........................................... ................................ ........ 7. Cómo presentar los los resultados resultados del análisis de varianza..................... varianza............................................. ........................ 8. El Análisis de Varianza Varianza en en programas programas informáticos informáticos y en Internet ............................ ............................ 8.1. Análisis Análisis de varianza varianza para muestras independient independientes es en EXCEL EXCEL y en el el SPSS.... 8.2. Recursos Recursos en Internet relacionados con el el Análisis Análisis de de Varianza Varianza ......................... 8.2.1. Test de de Bartlett Bartlett para comprobar la homogeneidad homogeneidad de varianzas varianzas.............. .............. 8.2.2. Tablas de la la F de Snedecor, Snedecor, Tukey, Dunnett y Bonferroni Bonferroni ...................... 8.2.3. Probabilidades Probabilidades exactas exactas de de la razón F en Internet.................................. Internet...................................... .... 8.2.4. Cómo llevar a cabo cabo un un Análisis Análisis de Varianza en Internet Internet ......................... 8.2.4.1. A partir del número de sujetos, sujetos, medias y desviaciones desviaciones de las muestras .................................................. .......................................................................... ............................ 8.2.4.2. Introduciendo los datos de todos todos los sujetos........................ sujetos ................................ ........ 8.2.4.3. Contrastes posteriores .................................................. .................................................................. ................ 10. Referencias bibliográficas bibliográficas .............................................. ....................................................................... .......................................... .................
Análisis de varianza para muestras independientes
28 28 28 29 29 30 31 32 32 33 34 34 36 37 37 38 39 42 42 42 43 43 44 44 44 45 45 46
3
1. Introducción: cuándo debemos utilizar el análisis de varianza. El análisis de varianza para muestras independientes es el modelo de análisis de varianza más frecuente: un factor o criterio de clasificación, dividido en dos o más niveles ;; también se denomina análisis de varianza unifactorial1. Repetimos brevemente lo ya dicho en la introducción. El análisis de varianza se utiliza cuando tenemos en el mismo planteamiento más de dos muestras independientes (de sujetos físicamente distintos en cada muestra). También se puede utilizar cuando solamente tenemos dos muestras como alternativa a la t de Student (de hecho en este caso t 2 = F), aunque la práctica habitual en este caso es utilizar directamente el contraste de medias (t de Student). Más adelante (apartado 7) presentamos un ejemplo metodológico del análisis de varianza aplicado a dos muestras como método alternativo al contraste de medias. Ya hemos indicado la razón principal para utilizar el análisis de varianza en vez de la t de Student cuando tenemos más de dos grupos en el mismo planteamiento general: aumentan mucho las probabilidades de no aceptar (rechazar) la Hipótesis Nula de no diferencia cuando es verdadera (lo que denominamos error tipo I; explicado con más detalle en el anexo I). Dicho de otra manera: cuando tenemos más de dos muestras y las contrastamos contrastamo s entre sí con la t de Student, tenemos el riesgo de aceptar la diferencia (no aceptamos la Hipótesis Nula) cuando realmente se trata de una diferencia normal o, lo que es lo mismo, la probabilidad de encontrar esa diferencia es mayor de lo que especificamos en nuestro nivel de confianza 2. 2. Cuándo podemos utilizar la t de Student cuando disponemos de más de dos grupos. Aun así cuando comparamos más de dos grupos podemos utilizar la t de Student en dos situaciones que exponemos a continuación: a) siendo más estrictos al determinar la probabilidad mínima de error para aceptar una diferencia y b) manteniendo el nivel de probabilidad habitual pero cumpliendo las tres condiciones que veremos enseguida. 2.1. Modificando los niveles de confianza: los contrastes de de Bonferroni Podemos utilizar unos niveles de confianza más estrictos; no es ésta la práctica más común, pero de hecho hay al menos un procedimiento, el test de Bonferroni (o de Dunn Bonferroni) en el que se utiliza la t de Student convencional pero con unos niveles de confianza más exigentes exigentes en función del número de contrastes que se van a hacer. 3 Cuando se utiliza el test de Bonferroni se utiliza la probabilidad (p) que expresa nuestro nivel de confianza dividida por el número de comparaciones previstas, así si nuestro nivel de confianza es .05 y tenemos tres comparaciones previstas utilizaremos como nivel de confianza .05/3 = .0167; en este caso .0167 equivale un nivel de confianza de .05. También si conocemos la probabilidad exacta (p) podemos multiplicarla por el número de contrastes para ver si llega a .05 (así si tenemos tres contrastes y p = .0167 tendremos p = (.0167)(3) = .05).
1 En inglés también suele denominarse one-way-ANOVA; expresión que a veces se ve traducida al español como análisis de varianza de una vía (en español es muy frecuente el uso de anglicismos en la terminología estadística). En EXCEL se denomina análisis de varianza de un factor. 2Esta mayor probabilidad de error al aceptar la diferencia entre dos muestras cuando tenemos en el mismo planteamiento más de dos muestras y consiguientemente más de dos contrastes entre medias, suele denominarse error de familia (family error en inglés); la familia es en este caso el conjunto de contrastes posibles entre medias. 3 Los contrastes de Bonferroni están más explicados en el anexo II (Carlo Emilio Bonferroni elaboró su teoría sobre la probabilidad en 1936). Análisis de varianza para muestras independientes
4
La crítica hecha a este contraste es que es muy conservador; tiene poca potencia para rechazar la Hipótesis Nula cuando realmente es falsa (Hancock y Klockars, 1996; Jaccard, 1998, Perneger, 1998) (diríamos que da muchos falsos negativos) y en definitiva la interpretación de un resultado depende de que el análisis se haga en solitario o junto con otros análisis4. 2.2. Condiciones para utilizar la t de Student cuando tenemos más de dos muestras Cuando tenemos más de dos grupos podemos utilizar la t de Student para comparar grupos de dos en dos si se dan todas estas condiciones: 1. Cuando antes de recoger los datos tenemos hipótesis explícitas acerca de la diferencia entre dos grupos en particular. No podemos comparar todo con todo, pero sí podemos utilizar el contraste de medias normal de la t de Student cuando tenemos alguna hipótesis a priori, formulada y justificada de manera explícita. Esta posibilidad (una hipótesis sobre la diferencia entre dos grupos en particular cuando tenemos más de dos grupos) no es lo habitual, pero tampoco hay que excluirlo rutinariamente. rutinariamente. 2. Cuando no vamos a combinar medias de varios grupos en una sola media para comparar esta nueva media con otras medias. Para este tipo de comparaciones (uniendo subgrupos) tenemos los contrastes de Scheffé, posteriores al análisis de varianza, que veremos más adelante. 3. Cuando no vamos a hacer todas las comparaciones posibles, ya que, suponiendo que se cumplen las dos condiciones anteriores, el número de comparaciones que podemos hacer con la t de Student cuando hay más de dos grupos es limitado: no puede ser superior a los grados de libertad, es decir, no puede ser superior al número de grupos menos uno . Por ejemplo, con tres grupos (A, B y C) se podrían hacer tres comparaciones (entre A y B, entre A y C y entre B y C) pero sólo podemos hacer dos con la t de Student, con cuatro grupos podemos hacer tres comparaciones, etc., si además se cumplen las dos condiciones anteriores. 3. Análisis de varianza: 3.1. Fases del proceso Al explicar el procedimiento seguiremos el proceso que es útil tener claro desde el comienzo y que, más o menos, seguiremos en la presentación de otros modelos de análisis de varianza, porque responde a los pasos lógicos que debemos seguir: 1º Explicación del procedimiento con un ejemplo resuelto paso a paso. Añadiremos una serie de aclaraciones metodológicas que nos pueden ayudar a entender mejor lo que realmente estamos haciendo. 2º Con el análisis de varianza propiamente dicho (razón F) no termina nuestro análisis. Dos tipos de cálculos posteriores completan el proceso: a) Contrastes posteriores, para poder comparar las medias de dos en dos en el caso de que la razón F sea estadísticamente significativa. 4 Una crítica bien razonada a los ajustes de Bonferroni puede verse en Perneger (1998): this paper advances the view, widely held by held by epidemiologists, that Bonferroni adjustments are, at best, unnecessary and, at worst, deleterious to sound statistical inference... The main weakness is that the interpretation of a finding depends on the number of other tests performed …The likelihood of type II errors is also increased, so that truly important differences are deemed nonsignificant... Bonferroni adjustments imply that a given comparison will be interpreted differently according to how many other tests were performed. were performed.
Análisis de varianza para muestras independientes
5
b) Diversos coeficientes de asociación que nos ayudan a aclarar la importancia de los resultados, y el tamaño del efecto (semejante al que ya conocemos y aplicamos en el contraste de dos medias). 3º Otras variantes metodológicas para hacer este mismo análisis de varianza (que o simplifican simplifican el proceso, o son útiles en determinadas circunstancias). 4º Sugerencias sobre cómo presentar los resultados. Vamos a presentar dos procedimientos muy semejantes; uno que se basa en el cálculo de desviaciones típicas (o varianzas) de la muestra (dividiendo por N) y otro utilizando las desviaciones desviaciones típicas o varianzas de la población (dividiendo por N-1). 3.2. Procedimiento utilizando desviaciones típicas; justificación Los procedimientos que vamos a exponer en primer lugar suponen el uso de calculadoras con programación estadística, sobre todo para calcular medias y desviaciones típicas; con esos datos ya hemos visto que los procedimientos son fáciles y rápidos, sobre todo si se trata de muestras pequeñas. Aunque disponemos de programas informáticos y de Internet (comentados en otros apartados) el proceso explicado en primer lugar calculando medias y desviaciones típicas con una simple calculadora, son útiles por estas razones. a) Para llegar a una comprensión más cabal de lo que estamos haciendo, sobre todo en procesos de aprendizaje . Hay interpretaciones que no se pueden hacer correctamente sin entender bien el proceso que se capta mejor siguiéndolo paso a paso que explicando los resultados que encontramos ya hechos en cualquier programa disponible. Hay que insistir que este método puede ser muy apropiado (al menos es una buena alternativa didáctica) cuando se trata de entender y aprender; en otro momento lo normal será utilizar programas informáticos. informáticos. b) Cuando de diversas muestras ya disponemos del tamaño de cada muestra y de las medias y las desviaciones típicas (o es información que vemos publicada); para estos casos tenemos también los programas de Internet que veremos en otro apartado, pero vamos a ver que si llega el caso se pueden hacer con toda facilidad con una simple calculadora. c) Cuando en cualquier caso se trata de muestras pequeñas y no resulta especialmente laborioso el cálculo de medias y desviaciones con una simple calculadora. 3.2.1. Procedimiento utilizando desviaciones típicas de las muestras ( n) En todos los modelos de análisis de varianza hay que calcular varianzas parciales (porque descomponemos la varianza total). En el cálculo de estas varianzas, el denominador no tiene ninguna dificultad (los grados de libertad), pero el numerador de las varianzas, la suma de cuadrados, sí resulta mucho más laborioso. Cuando no se utiliza directamente un programa de ordenador, lo más cómodo es seguir el procedimiento que utilizamos aquí para calcular las sumas de cuadrados y que no es el tradicional que es normal ver en los libros de texto 5. 5 Adaptamos y simplificamos aquí el procedimiento propuesto por Gordon (1973). Siguiendo la misma intuición para el cálculo de las sumas de cuadrados (suma de cuadrados o numerador de la varianza = N σ2) hemos diseñado procedimientos análogos para otros modelos de análisis de varianza que simplifican notablemente los cálculos si, como hemos indicado, se dispone de una simple calculadora con programación estadística para calcular medias y desviaciones Análisis de varianza para muestras independientes
6
Aunque dispongamos de programas de ordenador y hojas de cálculo (EXCEL, SPSS), este procedimiento, sobre todo en procesos de aprendizaje: 1) Facilita la comprensión del análisis de varianza, se visualiza mejor cómo se descompone la varianza total y se evitan automatismos que no suponen comprender lo que se está haciendo, 2) Es muy útil cuando de hecho no disponemos de los datos de cada sujeto y solamente tenemos las medias, desviaciones típicas y número de sujetos de cada grupo. Esta situación es frecuente; son datos que podemos encontrar publicados o que podemos tener ya anotados. Los programas de ordenador (como el SPSS o EXCEL) no suelen tener previsto cómo llevar a cabo un análisis de varianza a partir solamente de estos datos (N, media y σ de cada grupo), aunque sí es posible hacerlo en programas disponibles en Internet (mencionamos algunos en el apartado 9). Para entender el procedimiento hay que recordar en primer lugar la fórmula de la varianza (de la muestra): Σ( X - M )2 2 σ = [1] N donde podemos despejar la suma de cuadrados: Σ(X- M)2 = Nσ2 Es decir, la suma de cuadrados es igual a la varianza multiplicada por el número de sujetos. Se trata de la varianza de la muestra (dividiendo por N y no por N-1). En cada planteamiento del análisis de varianza hay qué saber qué varianza hay que calcular y multiplicar luego por el número de sujetos para obtener las sumas de cuadrados . Esto es lo que iremos viendo en los diversos ejemplos al ir proponiendo los distintos modelos modelos de análisis de varianza. Al dividir estas sumas de cuadrados por los grados de libertad obtendremos los cuadrados medios o varianzas parciales que van resultando al descomponer la varianza total. Si utilizamos este sencillo y rápido procedimiento, habrá que calcular en primer lugar (cálculos previos) una serie de desviaciones típicas (que irán variando en los distintos modelos de análisis de varianza). El procedimiento lo presentamos con un ejemplo (tabla 1) 6. Tenemos tres grupos (tres muestras independientes, de sujetos distintos); En la terminología del análisis de varianza cada grupo es un nivel. Cada grupo puede representar una edad distinta, o haber seguido un método de aprendizaje distinto, o tener una procedencia distinta, etc. (es la variable independiente) La variable dependiente, en la que hemos medido a cada sujeto y cuyos datos hemos tabulado, puede ser un examen de conocimientos, una escala de actitudes, etc.
típicas. Huck y Malgady (1978) exponen un procedimiento similar para el análisis de varianza de los diseños factoriales. Las ventajas de estos procedimientos es que permiten resolver el análisis de varianza sin más información de cada grupo que el número de sujetos, la media y la desviación, sin necesidad de disponer de todas las puntuaciones individuales. También, con sólo estos datos (a veces los únicos disponibles), disponemos de programas de Internet para resolver el análisis de varianza. 6 El ejemplo propuesto aquí está tomado de Downie y Heath (1981); sólo tomamos los datos (se puede comprobar que los resultados son los mismos que con el procedimiento tradicional); el procedimiento que seguimos es el que acabamos de proponer simplificando el cálculo de las sumas de cuadrados . Análisis de varianza para muestras independientes
7
Grupo 1º 12 18 16 8 6 12 10 n1 = 7 M1 = 11.714 σ1 = 3.917
Grupo 2º 18 17 16 18 12 17 10 n2 = 7 M2 = 15.428 σ2 = 2.92
Tabla 1
Grupo 3º 6 4 14 4 6 12 14 n3 = 7 M3 = 8.571 σ3 = 4.237
cálculos previos
1º Calculamos la media y desviación típica de cada uno de los tres grupos; 2º Calculamos la desviación típica de los totales, de n 1+ n2 + n3 = 21, σt = 4.669 3º Calculamos la desviación típica de las tres medias (como si se tratara de un grupo de tres sujetos), σΜ = 2.802.
que ya hemos hecho anteriormente y que conviene recordar ahora (y lo recordaremos en otras ocasiones). En la tabla 1 tenemos las puntuaciones de todos los sujetos y por eso podemos calcular con facilidad la media y varianza del total de sujetos (N = 21 en este ejemplo), pero no siempre disponemos de los datos de todos los sujetos, o son demasiados sujetos y resulta incómodo calcular la varianza total con una simple calculadora. A veces de cada grupo sólo conocemos los valores de N, la media y la desviación típica (que podemos ver, por ejemplo, publicados en un trabajo de investigación, o son datos que hemos ido conservando). A partir de estos datos podemos calcular rápidamente tanto la media (que es la media ponderada de los diversos grupos) como la desviación típica de todos los datos, que nos van a hacer falta para hacer un análisis de varianza7. Antes de hacer las operaciones es conveniente preparar la tabla de resultados (que ponemos más adelante, tabla 2) para ir colocando los resultados que vayamos obteniendo en su lugar correspondiente y proceder con orden. Vamos a calcular tres varianzas: 1º La varianza del total de los datos y es esta varianza la que vamos a descomponer en otras dos, que son las dos siguientes; 2º La varianza que expresa la variabilidad entre los grupos; 3º La varianza que expresa la variabilidad dentro de los grupos. En rigor, y para llevar a cabo todas las operaciones del análisis de varianza, no necesitamos calcular la varianza de todos los datos, pero es preferible hacerlo para poder verificar que la suma de las sumas de cuadrados entre y dentro de los grupos es igual a la suma de cuadrados de los totales. Para cada varianza calculamos el numerador (suma de cuadrados) y el denominador Una observación práctica importante
(grados de libertad):
Suma.de.cuadrados Grados.de.libertad Indicamos el procedimiento para muestras de idéntico y de distinto tamaño. Cuando se trata de muestras de idéntico tamaño el procedimiento es algo más sencillo; también en este caso se puede utilizar el procedimiento que indicamos para muestras de distinto tamaño, y así lo haremos como ejemplo. Varianza =
7 Las fórmula de la desviación típica de los totales calculada a partir de las medias y desviaciones de cada grupo está puesta más adelante (fórmula [32]); estas fórmulas, muy útiles ocasionalmente, están explicadas en el anexo III. Análisis de varianza para muestras independientes
8
Suma de Cuadrados (numerados de la varianza): Nσ 2t = (21)(4.669)2 =
1. del total: total:
457.79
Multiplicamos la varianza de los totales por el número total de sujetos. Ya hemos indicado que si no tenemos la varianza de los totales o no disponemos de las puntuaciones de cada sujeto, podemos calcularla a partir de los datos (N, desviación y media) de cada muestra (anexo III). 2. Dentro de los grupos: a) Si los grupos son de idéntico tamaño: nΣσ2 = (7)[(3.917)2 +(2.92)2+(4.237)2] = 292.75 b) Si los grupos son de distinto tamaño ( y también si son iguales), la fórmula es: ∑nσ2 = [7 x (3.917) 2 ] + [7 x (2.92) 2+ [7 x (4.237) 2] = 292.75 3. Entre los grupos: a) si los grupos son de idéntico tamaño: Nσ M2 = (21)(2.802)2 = (multiplicamos (multiplicamos la varianza de las medias por el número total de sujetos) b) si los grupos son de distinto tamaño:
164.87
Σn(M - Mt)2
En este caso necesitamos calcular el valor de la media total (M t); en este ejemplo, como los grupos constan del mismo número de sujetos, la media total es igual a la media de las medias = 11.904, y la suma de cuadrados entre los grupos será: [7 x (11.714 - 11.904) 2]+ [7 x (15.428 - 11.904) 2]+ [7 x (8.571 - 11.904) 2]= 164.94 La pequeña diferencia con respecto al resultado anterior se debe al uso de más o menos decimales y no afecta a los resultados finales del análisis de varianza. Grados de libertad (denominador de la varianza) del total: N - 1 (N = todos todos los sujetos de todos los grupos) grupos) 21- 1 = 20 entre los grupos: k - 1 (k = número de grupos) 3 -1 = 2 dentro de los grupos: N - k (N menos número de grupos o Σ(n-1) 21 -3 = 18 Los resultados del análisis de varianza se presentan en una tabla semejante a la tabla 2; es la tabla clásica para presentar los resultados r esultados del análisis de varianza. Origen de la variación
Suma de Cuadrados (SC)
Grados de libertad (gl)
(numerador de la varianza)
(denominador de la varianza)
Cuadrados Medios SC CM = gl (varianza)
SCentre =164.87 2 CMentre= Diferencias entre los 82.435 grupos Diferencias entre los SCdentro = 18 CMdentro= sujetos dentro de los 292.75 16.26 grupos SCtotal = 457.79 20 Variabilidad total Tabla 2: Tabla de resultados del análisis de varianza
Análisis de varianza para muestras independientes
F=
CM entre CM dentro
5.069 (p < .05)
9
La suma de cuadrados del total nos sirve para comprobar que no hay errores, pues debe ser igual a la suma de cuadrados entre los grupos más la suma de cuadrados dentro de los grupos. En este caso 164.87 + 292.75 = 457.62. Las sumas no siempre cuadran porque solemos redondear decimales, pero la discrepancia debe ser pequeña. En los grados de libertad el resultado debe ser exacto: exacto: 2+ 18 = 20 (= N-1). El valor de F que encontramos en las tablas para 2 grados de libertad de la varianza mayor (k-1) y 18 de la varianza menor (N - k) es de 3.55; si alcanzamos o superamos este valor, podemos afirmar que la diferencia entre ambas varianzas está por encima de lo puramente aleatorio, con una probabilidad de error inferior al 5% ó p< .05 (si hubiéramos superado el valor de 6.01 la probabilidad de error hubiera sido inferior al 1%, p <.01) 8. La variabilidad entre los grupos (entre las medias) es en este caso significativamente más alta que la variabilidad dentro de los grupos; podemos por lo tanto concluir que entre las medias existen diferencias significativas: la variabilidad total se explica más por las diferencias entre las medias (entre los grupos) que por las diferencias intra-grupales. Dicho de otra manera: afirmamos que dos grupos son distintos cuando sus medias difieren entre sí más que los sujetos entre sí. Un resumen del procedimiento lo tenemos en la tabla 3 ( para muestras de idéntico tamaño): Origen de la variación
Numerador de la varianza o Suma de Cuadrados (SC)
Denominador de la varianza
(Grados de libertad)
Entre los grupos (varianza parcial: expresa las diferencias entre los grupos)
N (número total de sujetos) por la varianza de las medias
Dentro de los grupos (varianza parcial: expresa las diferencias entre los sujetos)
n (número de sujetos en cada grupo) por la suma de las varianzas de los grupos
Varianza total
N (número total de sujetos) por la varianza total (de todos los sujetos)
2 Nσmedias
Número de grupos (k) menos uno k-1
2 nΣσ grupos
Número total de sujetos menos número de grupos N - k
2 Nσde todos
Varianza o Cuadrados Medios (CM )
Suma de Cuadrados entre grados de libertad
F
CM entre CM dentro
Suma de Cuadrados dentro grados de libertad
Número total de sujetos menos uno N-1
Tabla 3
Las desviaciones son de la muestra (dividiendo por N) y suponemos muestras de idéntico tamaño. Cuando los grupos son de distinto tamaño las Sumas de Cuadrados (numerador de la varianza) se calculan así: 2
Suma de Cuadrados entre los grupos: Σn Mn –Mt) : del grupo por (Media del grupo menos Media total) 2
en cada grupo: número de sujetos
8 El valor exacto de la probabilidad asociada a cualquier valor de F puede verse fácilmente en varias direcciones de Internet puestas en al apartado nº 9. Análisis de varianza para muestras independientes
10
Suma de Cuadrados dentro de los grupos :Σnσ2 : en grupo por la varianza.
cada grupo: número de sujetos del
3.2.2. Procedimiento utilizando desviaciones típicas de la población ( n-1) En el procedimiento, tal como lo hemos expuesto, hemos utilizado las desviaciones de las muestras. El ver las variantes si utilizamos las desviaciones o varianzas de la población (dividiendo por N-1 la suma de cuadrados) nos pueden ayudar a comprender mejor lo que estamos haciendo, y resulta más cómodo si lo que tenemos calculado de las distintas muestras son las desviaciones de la población 9. a ) Varianza o cuadrados medios entre grupos Al menos de manera intuitiva podemos comprender que la diversidad entre los grupos algo tendrá que ver con la desviación típica o la varianza de sus medias , tal como hemos hecho para calcular la suma de cuadrados entre los grupos . Multiplicamos esta varianza por N porque todos los sujetos intervienen en el cálculo de la media. Podemos quizás verlo con más claridad de esta manera: lo que calculamos no es la varianza de las medias, sino la varianza de toda la muestra pero asignando a cada sujeto la media de su grupo, como si no hubiera diferencias dentro de cada grupo (lo que sucede es que cuando los grupos son de idéntico tamaño nos basta calcular la desviación típica de las medias; como si en cada muestra n = 1). Simplemente estamos calculando la varianza total pero prescindiendo de la diversidad dentro de cada grupo (ésta la tendremos en cuenta en la suma de cuadrados dentro de los grupos). Cuando los grupos son de idéntico tamaño, si calculamos directamente la varianza de las medias pero dividiendo por N-1 (varianza de la población) y ponderamos esa varianza por el número de sujetos que hay en cada grupo, ya tenemos los cuadrados medios entre los grupos . En nuestro ejemplo (muestras de idéntico tamaño): Varianza de las tres medias (dividiendo por N-1): Cuadrados Medios entre los grupos:
2 =3.4322 = 11.78 σ n-1 2 (n)( σ n-1 ) = (7)(11.78) = 82.46
La variabilidad entre los grupos (representados por sus medias) está lógicamente relacionada con la varianza de las medias. La Suma de Cuadrados entre grupos es simplemente SC = (CM)(Grados de libertad); nos puede interesar para completar la tabla de resultados convencional y para calcular el coeficiente η2 que veremos después. Si las muestras son de tamaño distinto tendremos que calcular en primer lugar la media total (media de las medias ponderadas por el número de sujetos). En este caso (podemos hacerlo aunque las muestras sean de idéntico tamaño) la media total será: (7)(11.714) + (7)(15.428) + ( 7)(8.571) = 11.90 Mediatotal = 21
9 Además en los programas de Internet para hacer el análisis de varianza (reseñados en el apartado 9) las desviaciones típicas requeridas suelen ser las de la población. Análisis de varianza para muestras independientes
11
La Suma de Cuadrados será la que hubiéramos obtenido si todos los sujetos de cada grupo tuvieran idéntica puntuación igual a la media de su grupo. En cada grupo por lo tanto calculamos la diferencia entre la media del grupo y la media total, la elevamos al cuadro y multiplicamos por el número de sujetos del grupo: ésta es la contribución de cada grupo a la suma de cuadrados total. La Suma de cuadrados entre grupos de tamaño desigual será por lo tanto SCentre = Σn(M-Mtotal) donde n es el número de sujetos de cada grupo. En nuestro ejemplo tendremos: SCentre = (7)(11.714-11.9) 2 + (7)(15.428-11.9) 2 + (7)(8.571-11.9) 2 = 164.9 Los grados de libertad son los mismos, número de grupos menos uno. b ) Varianza o cuadrados medios dentro de los grupos Por lo que respecta a la varianza dentro de los grupos, ésta es simplemente (y obviamente) la combinación (la media) de las varianzas de todos los grupos 10. El que el denominador (grados de libertad) sea N - k también puede verse con facilidad: el denominador de cada varianza es n -1 (número de sujetos en cada grupo menos 1), luego el denominador de la combinación de todas las varianzas será el número total de sujetos (suma de todos los n) menos el número de grupos. Este procedimiento para calcular los cuadrados medios dentro de los grupos (o varianza dentro de los grupos) es fácil de ver: La varianza de un solo grupo, como expresión descriptiva de su diversidad, es:
Σ (X-M) 2 y ya hemos visto que la suma de cuadrados será Σ(X-M)2 = nσ2,. σ = n Esta expresión de la suma de cuadrados (o numerador de la varianza) n σ2 nos es muy útil para facilitar los cálculos, como ya hemos ido viendo. La varianza de la población (el subíndice n-1 expresa ahora que dividimos la suma de cuadrados por n –1 al calcular la desviación típica) estimada a partir de esta misma muestra será por lo tanto: nσ 2n 2 [2] σ n-1 = n −1 Si combinamos las varianzas de dos grupos (1 y 2) sumando sus numeradores y denominadores tendremos que: 2 2 n1 σ n.1 + n 2 σ n.2 2 σ (n-1)de 1+1+ 2 = [3] (n1 -1)+(n 2 - 1) 2 n
Y ampliando la fórmula a un número indefinido de muestras tenemos los cuadrados medios o varianza dentro de los grupos (k = número de grupos):
10 Esta combinación de varianzas o varianza común es la misma que se utiliza en el contraste de medias para calcular el tamaño del efecto propuesto por Cohen (1988); en este caso se trata de la desviación típica. Análisis de varianza para muestras independientes
12
nΣσ 2n Si los grupos son del mismo tamaño: CM dentro = Ν − k Σnσ 2n Si los grupos son de distinto tamaño: CM dentro = N − k
[4] [5]
Otra manera de expresar lo mismo es ésta: la variabilidad total dentro de los grupos (cuadrados medios dentro) viene dada por la varianza media de los grupos, calculando estas varianzas dividiendo por N-1 (se trata de la estimación de la varianza media de las poblaciones representadas por esas muestras). Cuando los grupos son de idéntico tamaño se ve muy fácilmente. Calculamos con los datos de nuestro ejemplo (tabla 1) las desviaciones típicas de las poblaciones representadas por los tres grupos: Grupo 1º Grupo 2º Grupo 3º
σn-1 =
4.2341 3.1547 4.5773 Σσ 2n −1 4.23412 + 3.1547 2 + 4.57732 La varianza media será = = = 16.27 k 3 Tenemos el mismo resultado obtenido antes (cuadrados medios dentro de los grupos, tabla 2). Esto podemos hacerlo siempre que tengamos muestras independientes de idéntico tamaño. Si las muestras son de distinto tamaño se trata de una media ponderada por el número de sujetos: para calcular esta varianza media habrá que 1º multiplicar cada varianza por su n, y 2º dividir estos productos por N (no por k). Vamos a hacerlo con los mismos datos, ya que los procedimientos para muestras de distinto tamaño son también válidos cuando son del mismo tamaño. Σ nσ 2n −1 (7 x 4.23412 ) + (7x 3.1547 2 ) + ( 7x 4.5773 4.57732 ) Varianza media = = = 16.27 N 21 En definitiva, lo que hacemos con la razón F es básicamente comparar la varianza de las medias (= variabilidad entre, multiplicada por el número de sujetos pues todos intervienen en la media) con la varianza media de los grupos (variabilidad dentro). En el caso más sencillo de varias muestras independientes de idéntico tamaño (= n) podemos expresar así lo que hacemos: F=
=
diferencias o variabilidad entre las medias diferencias o diversidad de los sujetos dentro de sus grupos (n)(varianza de las medias σ 2n -1 )
2 media de las varianzas de los grupos (= Σσ n −1 / k )
[6]
Esta última expresión clarifica el análisis de varianza tanto conceptual como metodológicamente y nos ofrece un procedimiento alternativo para llegar directamente a la razón F, que es lo que nos interesa. Más adelante ofrecemos un ejemplo resuelto siguiendo literalmente esta fórmula. En el numerador tenemos la varianza total prescindiendo de las diferencias dentro de cada grupo (como si todos los sujetos tuvieran una puntuación igual a la Análisis de varianza para muestras independientes
13
media de su grupo), y en el denominador tenemos la varianza total pero prescindiendo de las diferencias entre las medias (entre los grupos). Habitualmente seguiremos el procedimiento explicado en primer lugar porque suponemos que calculamos las desviaciones típicas (o varianzas) dividiendo por N, ya que es el dato descriptivo que solemos calcular rutinariamente o que con más frecuencia encontramos ya publicado, y que además nos permite completar con facilidad la tabla de resultados (con las sumas de cuadrados) que es habitual presentar cuando se lleva a cabo un análisis de varianza. 3.2.3. Procedimiento alternativo de análisis de varianza para varias muestras independientes a) de idéntico tamaño y b) utilizando las desviaciones de la población ( n-1) Cuando tenemos varias muestras independientes y de idéntico tamaño, y disponemos de una calculadora con programación estadística, el análisis de varianza puede quedar muy simplificado, yendo directamente al cálculo de los cuadrados medios entre los grupos y dentro de los grupos y de la razón F. El procedimiento, utilizando las desviaciones de la población ( σn-1) en vez de las desviaciones de las muestras ( σn), ya está comentado antes (apartado 3.2, fórmula [6]), pero ahora lo exponemos con un ejemplo resuelto (tabla 4).
M
Grupo 1º 12 18 16 8 6 12 10 11.714
Grupo 2º 18 17 16 18 12 17 10 15.428
Grupo 3 6 4 14 4 6 12 14 8.571
σn σ n-1
3.917 4.231
2.921 3.1547
4.237 4.577
n=7
2 σ n −1
17.904
9.952
20.952
Desviación típica de las medias
(dividiendo por N -1)
Varianza de las medias
= A 2 σn-1 σ n −1 3.4324 11.7817 Estas desviaciones típicas (dividiendo por N) son útiles como dato descriptivo
media de las varianzas Σσ 2n −1 =
=
k
(n-1) 16.267
= B
Tabla 4 Cuadrados Medios entre grupos (n)(A) (7)(11.7817) 82.4719 = = = F= = 5.069 Cuadrados Medios dentro de los grupos B 16.267 16.267 Con una calculadora con programación estadística estadística hacemos los cálculos enmarcados en una doble línea con toda facilidad. 1º Calculamos en cada grupo la media y las dos desviaciones típicas; la desviación típica normal (de la muestra, dividiendo por N), como dato descriptivo útil, y la desviación típica dividiendo por N -1 que elevamos al cuadrado directamente (nos interesan las varianzas), y que es lo que anotamos (no hay necesidad de anotar el valor de σn-1 sin elevarlo al cuadrado).
Análisis de varianza para muestras independientes
14
Si tenemos ya calculados los valores de σn (y esto es normal que suceda) y no los de σn-1, pasamos de unos a otros con facilidad [2] (el N es el de cada grupo, 7 en este ejemplo):
σ
2 n −1
Nσ 2n = Ν−1
2º Calculamos A: introducimos las tres medias, calculamos su σn- y lo elevamos al cuadrado. Este valor (varianza de las medias), multiplicado multiplicado por el número de sujetos que hay en cada grupo (n), son los Cuadrados Medios entre los grupos. 3º Calculamos B: introducimos las varianzas de los grupos y calculamos su media; esta media de las varianzas (las que hemos calculado dividiendo por N -1) es el valor de los Cuadrados Medios dentro de los grupos. 4º Aplicamos la fórmula de la razón F tal como la hemos puesto antes. Este método también puede servir simplemente como comprobación. Al presentar los resultados conviene poner una tabla donde aparezcan al menos los Cuadrados Medios, o varianzas, entre y dentro de los grupos. Si queremos presentar una tabla convencional, donde aparezcan también las Sumas de Cuadrados y los grados de libertad (con este sistema calculamos directamente los Cuadrados Medios), podemos calcular las Sumas de Cuadrados a partir de estos resultados (Suma de Cuadrados = Cuadrados Medios por grados de libertad). 4. Cálculos posteriores 4.1. Contrastes posteriores entre las medias Un valor de F significativo nos indica que hay diferencias entre las medias por encima de lo aleatorio, o que las diferencias entre las medias (entre los grupos) son mayores que las diferencias entre los sujetos dentro de los grupos, pero no nos dice entre qué medias está o están las diferencias. Para comparar las muestras de dos en dos hay diversos métodos. En estos casos no utilizamos la t de Student, comparando cada media con todas las demás. Si lo hacemos podemos encontrarnos con valores de t significativos, al nivel de confianza que utilicemos, que sin embargo pueden ser casuales; al hacer varias comparaciones de dos en dos aumenta la probabilidad de error. Cuando en el mismo planteamiento planteamiento tenemos más de dos medias, se utilizan otros tipos de contrastes más rigurosos y apropiados. Estas comparaciones posteriores posteriores no se hacen si el valor de F no es significativo. significativo. A pesar de lo que acabamos decir, y como ya indicamos antes, se puede utilizar la t de Student convencional para comparar dos medias en el caso de que tengamos hipótesis previas y justificadas acerca de alguna determinada diferencia entre dos medias. Esto sin embargo no suele ser lo frecuente cuando planteamos un análisis de varianza en el que simultáneamente analizamos más de dos muestras. Sobre estos contrastes debemos tener en cuenta inicialmente: inicialmente: a) Que existen bastantes procedimientos procedimientos para hacer estas comparaciones posteriores 11 y que no todos son igualmente válidos, aconsejables o convenientes en todos los casos. b) Que es frecuente que los programas de ordenador (como el SPSS) nos calculen varios de estos contrastes hechos según distintos métodos, pero el hecho de que los dé rutinariamente rutinariamente un programa de ordenador no quiere decir que dé lo mismo uno que otro. 11 Según Kirk (1995) actualmente se utilizan más de 30 contrastes; este mismo autor describe 22 procedimientos. Análisis de varianza para muestras independientes
15
c) Consecuentemente para valorar estos contrastes y escoger el más apropiado es conveniente examinar las peculiaridades de cada uno; aquí expondremos algunos de los más utilizados 12. Puede llamar la atención el hecho de que haya muchos tipos de contrastes posteriores, pero tiene su explicación. Con estos contrastes se busca controlar y minimizar el error Tipo I (el que se comete al rechazar 13 la Hipótesis Nula de no diferencia cuando es verdadera y habría que haber aceptado la no diferencia), y hay diversos métodos porque se parte de diversos presupuestos sobre el número y tipos de comparaciones que se van a hacer como se irá indicando en cada caso: a) Algún procedimiento (como el de Scheffé) supone que se pueden hacer múltiples comparaciones, todas las posibles, incluso combinando medias entre sí, lo que da lugar a un mayor número de contrastes posibles. b) Con otros procedimientos (como el de Tukey) se supone que sólo se van a comparar las medias de dos en dos (y sin combinar medias entre sí). c) Otros procedimientos (como el de Dunnett) suponen un número de comparaciones todavía más limitado, como la de varios grupos experimentales con uno solo grupo de control, pero no el contraste de los grupos experimentales entre sí. Aquí nos limitamos a exponer algunos de los más útiles y frecuentes; puede ser suficiente atenerse a estos métodos; cada uno tiene sus peculiaridades y utilidad específica 14. Los contrastes que exponemos son los siguientes: 1. El contraste de Scheffé. Cuando las muestras son de tamaño desigual o cuando no hay ningún tipo de hipótesis previa y se exploran diferencias por curiosidad, lo más seguro es atenerse al contraste de Scheffé. 2. El contraste de Tukey. Cuando las muestras son de idéntico tamaño (o casi iguales como veremos), el contraste de Tukey también es útil, sencillo y muy utilizado (y en este caso, muestras de idéntico tamaño, es preferible al contraste de Scheffé). Estos dos contrastes (Scheffé y Tukey) son probablemente los que con más frecuencia se encuentran en los libros de texto. Aquí los tratamos con mayor amplitud y con ejemplos resueltos, aunque antes de decidirse por un contraste en particular conviene repasar la información disponible sobre otros contrastes. 3. Algunos contrastes que son variantes de Tukey en situaciones específicas como son Tukey-Kramer (para muestras de tamaño distinto), Games-Howell (para muestras de tamaño distinto y varianzas desiguales) y Newman-Keuls (para muestras iguales y más liberal que el contraste original de Tukey). Estos contrastes tienen otra tabla de probabilidades (distribución de q o rango estudentizado ). 4. El contraste de Fisher (LSD, Least Significant Difference), una variante de la t de Student y más liberal que los anteriores.
12 Puede ser útil además consultar alguna obra especializada, como Klockars y Sax (1986) y Toothaker (1993). 13 Hablando con propiedad habría que decir no aceptar en vez de la expresión habitual rechazar. 14
Los contrastes de Bonferroni no los tratamos aquí; nos hemos referido a ellos al comienzo y están comentados en el Anexo II; tampoco fueron pensados específicamente como contrastes posteriores al análisis de varianza. También están programados en el SPSS. Análisis de varianza para muestras independientes
16
5. El contraste de Dunnett por su utilidad específica, cuando lo que nos interesa es comparar varias muestras experimentales con otra de control (no las muestras experimentales experimentales entre sí). 5. Sin exponerlos en detalle introduciremos introduciremos los denominados contrastes ortogonales 15. Veremos que todas las fórmulas de los contrastes posteriores se parecen mucho a la de la de t de Student . En el numerador tenemos siempre una diferencia entre dos medias; en el denominador de la t de Student tenemos las dos varianzas de los dos grupos que se comparan y en estas fórmulas lo que tenemos en su lugar son los cuadrados medios dentro de los grupos que no son otra cosa que la varianza media de todas las varianzas de las muestras que entran en el planteamiento, y no solamente las de las dos muestras que comparamos en cada caso. Otra diferencia con respecto a la t de Student está en las tablas que hay que consultar para ver las probabilidades asociadas al valor obtenido que salvo en algún caso (como en el contraste de Fisher) son distintas. 4.1.1. Contraste de Scheffé Es uno de los contrastes más utilizado; no suele faltar en los textos de estadística y a veces es el único que se explica; por estas razones merece un comentario de cierta amplitud. A pesar de su popularidad, y como advierten algunos autores (Klockars y Sax, 1986, entre otros), no es necesariamente el mejor método en todas las situaciones (está programado en el SPSS). a) Valoración general
1) Se trata de un método seguro, que se puede aplicar siempre. Es válido para todo tipo de contrastes; se pueden comparar las medias de dos en dos, o una media con una combinación combinación lineal de otras, etc., y las muestras pueden ser tanto de idéntico tamaño como de tamaño desigual. La flexibilidad de este contraste lo ha hecho muy popular, aunque esta flexibilidad tiene un precio; como iremos viendo su rigor puede ser excesivo. 2) Es un método más fiable y más seguro cuando se violan los supuestos de normalidad y de homogeneidad de varianzas, y con mayor razón cuando las muestras son de tamaño muy desigual. Esta es una buena razón para utilizarlo cuando dudamos de la legitimidad del análisis de varianza porque no se cumplen los requisitos previos. 3) A pesar de la aplicabilidad aplicabilidad tan general de este procedimiento (prácticamente (prácticamente siempre es válido aunque no siempre es el mejor o el más recomendable, como vamos indicando) conviene consultar otras posibilidades (que iremos mencionando) antes de aplicar rutinariamente rutinariamente el contraste de Scheffé, sobre todo cuando tenemos hipótesis muy especificas, especificas, las muestras son de idéntico tamaño o cuando vamos a hacer menos comparaciones de las posibles. 4) El problema con este método es que es muy conservador, y se puede aceptar la Hipótesis Nula cuando podríamos rechazarla legítimamente con otros procedimientos. En términos más propios, se trata de un contraste con poco poder (se puede aceptar la Hipótesis Nula de no diferencia cuando es falsa y podríamos haber afirmado la diferencia). Es un método muy blindado contra el error denominado Tipo I (consiste en rechazar o no aceptar la 15 Todos estos contrastes pueden verse en numerosos textos; también en Internet se encuentran con facilidad expuestos y valorados los diversos contrastes, por ejemplo en Lane, David M. (1993-2007). HyperStat Online Statistics ANOVA) y en Dallal (2001) (puede verse además el apartado 9, sobre Textbook (en Introduction to Between-Subjects ANOVA) análisis de varianza en Internet). Análisis de varianza para muestras independientes
17
Hipótesis Nula cuando es verdadera; este error se comete cuando aceptamos la diferencia y en realidad no la hay; las medias proceden de la misma población). Por esto decimos que se trata de un método muy conservador : esto significa que cuesta más rechazar la Hipótesis Nula. 5) Precisamente porque es un procedimiento muy conservador es especialmente útil cuando no hay hipótesis previas y simplemente exploramos diferencias entre grupos o entre combinaciones de grupos. Si no aceptamos la Hipótesis Nula (y afirmamos que sí hay diferencias entre las medias), no nos equivocamos. Es un buen procedimiento cuando comparamos grupos por mera curiosidad. 6) Es un procedimiento adecuado para comparar medias de grupos de tamaño distinto; esto hace que con frecuencia sea muy utilizado; en casi todos los otros métodos se supone que las muestras son de idéntico tamaño. Aun así, cuando las muestras son de tamaño distinto, disponemos de otras alternativas que no conviene pasar por alto y que iremos mencionando o explicando 16. 7) Con este procedimiento se puede hacer algo que frecuentemente frecuentemente puede ser de interés: combinar varias muestras en una sola para comparar la nueva media con la de otras muestras. Si tenemos, por ejemplo, tres grupos, se puede comparar cada media con las otras dos, pero también podemos unir dos medias para compararla con una tercera. Estas combinaciones de muestras (y medias) pueden ser de mucho interés, porque con frecuencia encontramos que algunas muestras participan de una característica común y tiene sentido unirlas para comparar la nueva muestra (combinación de varias muestras) con una tercera. Precisamente porque este procedimiento está diseñado para hacer múltiples comparaciones (incluso combinando medias entre sí) es un método más conservador que los demás. Esta posibilidad de combinar muestras (posibilidad a veces poco aprovechada) permite ampliar los análisis y enriquecer la interpretación. Además combinando medias aumentamos el número de sujetos y se rechaza con más facilidad la hipótesis nula. 8) Como es un método muy riguroso, sucede a veces que la razón r azón F es significativa, y a ese mismo nivel de confianza no encontramos diferencias significativas entre las medias. Cuando la F es significativa y ninguna comparación posterior lo es, el investigador suele quedarse a veces perplejo, y pensando dónde se habrá equivocado; por eso conviene conocer de antemano esta posibilidad. El que la razón F sea significativa y luego al comparar las medias de dos en dos no encontremos diferencias diferencias significativas puede suceder aunque no es lo habitual. Realmente con una F significativa encontraremos al menos una diferencia significativa entre dos medias, pero no necesariamente entre las medias de dos grupos, sino entre combinaciones de medias que pueden no tener un interés específico 17. Cuando encontramos una razón F significativa y 16 Contrastes posteriores que admiten muestras de tamaño desigual son al menos los de Fisher, Tukey-Kramer y Games-Howell; el contraste de Tukey y otros también son válidos cuando las muestras son de tamaño ligeramente distinto; en estos casos el número de sujetos que se utiliza (porque entra en las fórmulas) es la media armónica. 17 La posibilidad de obtener una F significativa y después no obtener diferencias significativas al comparar los grupos entre sí es una posibilidad no frecuente en los demás contrastes, y lo mismo sucede a la inversa: puede haber un contraste significativo y una F no significativa. Esta posibilidad puede verse discutida en Hancock y Klockars (1996) y en Hancock y Klockars (1998: Scheffe's test which is commonly used to conduct post hoc contrasts among k group means, is unnecessarily conservative because it guards against an infinite number of potential post hoc contrasts when only a small set would ever be of interest to a researcher ). La prueba inicial de F (en definitiva el análisis de varianza) ofrece una protección
Análisis de varianza para muestras independientes
18
luego no vemos diferencias estadísticamente significativas entre los grupos, una buena sugerencia es acudir a los contrastes de Games y Howell (explicados después) válidos para muestras con tamaños y varianzas desiguales (programado en el SPSS). conservador, hay autores que sugieren o recomiendan 9) Por tratarse de un método muy conservador, utilizar con el contraste de Scheffé un nivel de confianza más liberal, de α = .10 en vez del usual α = .0518 En general en todos los casos lo más recomendable es indicar la probabilidad exacta (p = .03, p = .006…) en vez de los usuales p < .05 ó p< .01 b) Procedimiento
Para mayor claridad, y dada la popularidad (y los problemas) de este contraste distinguimos distinguimos tres situaciones (aunque realmente se trata en todos los casos de lo mismo). 1) Para contrastar las medias de dos muestras
Esto es lo que hacen rutinariamente rutinariamente los programas como el SPSS. Damos los siguientes pasos: 1º Calculamos este valor de t':
t'= t' =
Por ejemplo, entre los grupos 1º y 2º tendríamos t' =
| M1 - M2 | 1 1 CMdentro ( + ) n 1 n2
[7]
11.714 − 15.4281 = 1.723 1 1 (16.26)( + ) 7 7
Cuando los grupos son de igual tamaño se simplifica el cálculo porque el denominador es siempre el mismo. Los valores de t' para los diversos pares de grupos de este ejemplo son: entre el 1º y el 2º, t' = 1.723 entre el 1º y el 3º, t' = 1.458 entre el 2º y el 3º, t' = 3.181 2º A partir de a) número de grupos (k) y b) de los valores de F que vienen en las tablas, y ya consultados en el análisis de varianza previo, calculamos los valores significativos de t' (construimos nuestras propias tablas) mediante la fórmula [8]: t' = (k -1)F
[8]
En nuestro caso (2 y 18 grados de libertad) que encontramos en las tablas son:
contra el error tipo I (rechazar (o no aceptar) la Hipótesis Nula cuando es verdadera) que puede resultar excesiva y no faltan autores que recomiendan pasar directamente a los contrastes posteriores cuando hay hipótesis experimentales claras (Jaccard, 1998:28, 67). El encontrar una F significativa y no ver diferencias entre los grupos es más frecuente cuando las muestras son de tamaño desigual (varias explicaciones, comentarios y alternativas metodológicas en Overseas Chinese Association for /) I R & S t a t i s t i c s , S u m m a r i e s o f O n - l i n e D i s c u s s i o n Institucional Research ( h t t p : / / w w w . o c a i r . o r g /) http://www.ocair.org/files/KnowledgeBase/Statistics/Anova.asp consultado 24, 08, 2007) 18 Esta recomendación la vemos en Rodrigues (1977), Escotet (1980), Martínez Garza (1988) y en otros autores. En las tablas de la F muchos textos se limitan a α = .05 y .01, pero en bastantes se pueden ver también los valores de F para α = .10; además tablas con α=.10 las tenemos en Internet, y también en Internet podemos encontrar la probabilidad exacta de cualquier valor de F; al final dedicamos un apartado a recursos de Internet en relación con el análisis de varianza. También convine tener en cuenta que el contaste de Games y Howell puede ser una buena alternativa al de Scheffe. Análisis de varianza para muestras independientes
19
para p = .05, t'= (3-1)(3.55) = 2.664 para p = .01, t'= (3-1)(6.01) = 3.466 3º Estos son nuestros valores de referencia (nuestras nuevas tablas). Comparamos ahora las t' del paso 1º con las que acabamos de calcular para comprobar qué valores de t' llegan o superan los valores de t' significativos (paso 2º). La única diferencia significativa se da entre los grupos 2º y 3º (p < .05). Cuando son muchas las comparaciones entre medias que tenemos que hacer, se puede simplificar el procedimiento calculando en primer lugar cuál debe ser la diferencia mínima entre dos medias para determinados niveles de significación. significación. Para esto nos basta despejar |M 1 - M2| en la fórmula de t' [7] y así tenemos que: 1 1 | M1 - M2 |= t't' CMdentro ( + ) [9] n1 n 2 Calculamos los valores de t' tal como lo hicimos antes y hallamos los valores significativos significativos de |M | M 1 - M2|, que en este ejemplo serán: 1 1 para un nivel de confianza de α =.05: |M1 - M2| = 2.664 (16.26)( + ) = 5.74 7 7 1 1 para un nivel de confianza de α =.01: |M1 - M2| = 3.466 (16.26)( + ) = 7.47 7 7 Ahora nos basta calcular las diferencias entre medias y comprobar si alcanzan los valores señalados: Entre el grupo 1º 1º y 2º: |11.71-15.43| = 3.72, inferior inferior a 5.74 (p> .05); no significativa; significativa; Entre el grupo grupo 1º y 3º: 3º: |11.71- 8.57| = 3.14, inferior inferior a 5.74 5.74 (p> .05); no significativa; significativa; Entre el grupo grupo 2º 2º y 3º: |15.43|15.43- 8.57| 8.57| = 6.86, 6.86, superior a 5.74 (p< .05); significativa. 2) Utilizando un nivel de confianza más liberal ( = .10)
Si deseamos utilizar el contraste de Scheffé con un nivel de confianza más liberal, de α = 10, tenemos que buscar en las tablas de F el valor correspondiente a la probabilidad de α = .10 con 2 y 18 grados de libertad (en este ejemplo). Este valor de F es 2.62 que utilizaremos en la fórmula [8] t'= (3 − 1)(2.62) = 2.289 La diferencia mínima que debemos encontrar es la que hemos visto en la fórmula [9]: 1 1 Para un nivel de confianza de α =.10: |M1 - M2| = 2.289 (16.26)( + ) = 4.93 7 7 En nuestro ejemplo y con α = .10 seguimos sin encontrar diferencias estadísticamente significativas significativas entre los grupos 1º y 2º y 1º y 3º. 3) Contrastes combinando medias de grupos
Como ya hemos indicado, el método de Scheffé no sólo sirve para comparar dos grupos entre sí (es lo más habitual) sino también para comparar medias combinando varios grupos.
Análisis de varianza para muestras independientes
20
Por ejemplo, deseamos verificar si la media del grupo 2º supera significativamente a la media combinada de los grupos 1º y 3º: La media combinada de estos dos grupos es 10.1425 (es la media de las medias, ya que se trata de grupos con idéntico número de sujetos). El nuevo número de sujetos de este nuevo grupo es ahora 7 + 7 = 14. | 15.43 − 10.1425 | Aplicando la fórmula [9] tenemos: t' = = 2.83, p< .05 1 1 (16.26)( + ) 7 14 4.1.2. Contraste de Tukey para muestras de idéntico (o muy parecido) tamaño El procedimiento de Tukey se basa en el estadístico q o del rango estudentizado; no es necesario entenderlo para utilizarlo (aunque se aprecia enseguida su semejanza con la t de Student), pero está explicado en el anexo IV (está programado en el SPSS). a) Valoración general
1) Supone grupos de idéntico tamaño c) Se pueden comparar todas las medias de dos en dos; el procedimiento está pensado para k(k-1)/2 comparaciones, todas las posibles entre k grupos tomados de dos en dos. d) Es en principio preferible a Scheffé si se puede garantizar la homogeneidad de varianzas y la distribución normal de las poblaciones; el método de Tukey es menos tolerante con las violaciones de estas condiciones previas que el procedimiento de Scheffé. Cuando es claro que no se cumplen estas condiciones, disponemos de adaptaciones de este contraste que exponemos en los apartados siguientes (contrastes de Tukey-Kramer y de Games y Howell). e) Con el contraste de Tukey se rechaza con más facilidad la Hipótesis Nula que con el contraste de Scheffé; es preferible también cuando se está interesado en todos los posibles contrastes entre pares de medias. b) Procedimiento
1º La diferencia honestamente significativa (DHS Honestly Significant Difference) Una diferencia es estadísticamente significativa si es igual o mayor que el valor simbolizado como DHS ( diferencia honestamente significativa). Habitualmente se calcula un solo valor con el que se comparan todas las diferencias. DHS= q
CM dentro n
[10]
DHS = Diferencia honestamente significativa o diferencia mínima necesaria para poder rechazar la Hipótesis Nula q= Valor del rango estudentizado que hay que consultar en las tablas apropiadas para los grados de libertad del término del error (Cuadrados Medios dentro de los grupos) y para k (número de grupos o de medias) 19.
19 Tablas de Tukey en el documento con tablas estadísticas y las direcciones de Internet del apartado nº 9. Análisis de varianza para muestras independientes
21
CMdentro= Varianza (Cuadrados Medios) dentro de los grupos; n= Número de sujetos o datos en cada grupo. En nuestro ejemplo el valor de q para tres grupos y 18 grados de libertad es 3.61 (p < .05) por lo que para rechazar la Hipótesis Nula habría que alcanzar una diferencia de: DHS = 3.61
16.26 = 5.50 7
Esta diferencia es algo menor que la que nos indica el método de Scheffé. El contraste de Tukey detecta mejor las diferencias significativas que el de Scheffé y se puede utilizar en cualquier planteamiento planteamiento de análisis de varianza, con tal de que el número de sujetos sea igual (o casi) en todos los grupos. Aunque quizás lo más frecuente sea calcular la diferencia mínima necesaria para rechazar la Hipótesis Nula que acabamos de ver [10], también se puede calcular directamente directamente el valor de q (como hacemos con la t de Student); podemos despejar el valor de q en la fórmula [10]; DHS es ahora la diferencia entre las medias que queremos contrastar: | M - M2 | q= 1 [11] CMdentro n Vamos a comparar las medias de los grupos 2º (M ( M = 15.428) y 3º (M = 8.571) (tabla 1); los cuadrados medios dentro de los grupos son igual a 16.26 (tabla 2): q=
|15.428-8.571| = 4.499 16.26 7
En las tablas de q para k (número de medias) = 3 y 18 grados de libertad tenemos los valores de 3.61 (.05) y 4.70 (.01), por lo que en nuestro caso p < .05 Cuando se trata de un análisis de varianza con más criterios de clasificación (como cuando disponemos los datos en un cuadro de doble entrada), el valor de k no es siempre el número de grupos. Aquí nos limitamos a exponer el procedimiento para el caso de varias muestras independientes con un sólo criterio de clasificación; no para los casos en que hay más (como en los cuadros de doble entrada de los diseños factoriales; esto lo veremos en su lugar). 2º Cuando el número de sujetos es ligeramente desigual Cuando el número de sujetos en cada grupo es desigual (pero no muy desigual), en vez de n (número de sujetos en cada grupo cuando son de idéntico tamaño), puede utilizarse la media armónica (n*), de los diversos n (k es el número de grupos) 20:
20 Cuando se utiliza la media harmónica suele emplearse la expresión unweighted means analysis , y no debe utilizarse con muestras muy pequeñas (<10) y con diferencias entre las muestras mayores de 2 en número de sujetos (Dallal, 2001). La recomendación de utilizar la media armónica de n cuando los grupos son de tamaño ligeramente desigual se encuentra en muchos autores (por ejemplo Wildt y Ahtola, 1978 y Klockars y Sax, 1986). Análisis de varianza para muestras independientes
22
media armónica
k de n* = 1 1 1 1 o + + …+ n 1 n 2 n3 n k
n* =
k 1 Σ( ) n
[12]
Otra posibilidad que recomiendan algunos autores 21 es utilizar la media armónica de n de solamente los dos grupos que vamos a comparar si las diferencias en tamaño son algo mayores, o simplemente podemos utilizar como valor de n el número de sujetos del grupo más pequeño; nuestro test será en este caso más conservador (como sucede siempre; si nos fijamos en la fórmula del contraste de Tukey veremos que a mayor n es más fácil rechazar la Hipótesis Nula de no diferencia). 4.1.3. Contraste de Tukey-Kramer para muestras de distinto tamaño y varianzas iguales Este contraste es válido para comparar las medias de muestras de distinto tamaño, pero con la condición de que las varianzas de las poblaciones a las que pertenecen las muestras sean iguales (por iguales entendemos sin diferencias estadísticamente significativas).
Esta condición no siempre es fácil de confirmar por lo que este procedimiento no se debe utilizar (Toothaker, 1993) si a) las desviaciones típicas (o varianzas) de las muestras no son muy parecidas o b) si no disponemos de más datos de otros estudios que nos confirmen que las varianzas de las poblaciones son de magnitud semejante. Aunque esta condición es bastante restrictiva se trata de un contraste aplicable en muchas ocasiones en las que tenemos muestras de tamaño desigual. Además con un ajuste en los grados de libertad es un contraste válido cuando el tamaño de las muestras es distinto y también las varianzas son distintas (y tenemos aquí una alternativa al procedimiento de Scheffé); se trata en este caso del contraste de Games y Howell que veremos en el apartado siguiente. Este contraste sigue también la distribución de q (como el contraste habitual de Tukey) y suele presentarse de dos maneras (obviamente equivalentes); presentamos las dos para evitar confusiones. a) Calculamos en primer lugar este valor de t': t' =
Mi − M k 1 1 CMdentro ( + ) n i n k
[13]
M y n son respectivamente las medias que vamos a comparar y el número de sujetos de cada muestra; CMdentro son, como siempre, los cuadrados medios dentro de los grupos.
Calculamos el valor crítico de t' a partir del valor de q (al nivel de confianza deseado; tablas de q): q t' = [14] 2 Buscamos el valor de q correspondiente al número de medias de nuestro planteamiento (número de muestras) y los grados de libertad de los cuadrados medios dentro de los grupos (como es usual en estas tablas).
21 Por ejemplo Klockars y Sax (1986). Análisis de varianza para muestras independientes
23
También podemos calcular directamente la diferencia mínima que tenemos que encontrar para afirmar la diferencia; para esto nos basta con despejar el numerador de la fórmula [13] sustituyendo q por el valor que encontremos en las tablas: |Mi-Mk |= |=
q 1 1 CMdentro ( + ) 2 n i n k
[15]
Si vamos a hacer varias comparaciones entre medias lo único que irá variando es el tamaño de los grupos; el resto de los valores (q y CM dentro) son constantes. constantes. b) Dada la relación entre t’ y q cuando se trata de dos muestras (t’= q/ 2 ) podemos también calcular directamente directamente el valor de q (fórmula [16]) y consultar las tablas de q. q=
M i − M k ⎡ (1 / n i ) + (1 / n k )⎤ CM dentro ⎢ ⎥ 2 ⎣ ⎦
[16]
Conviene caer en la cuenta de que ambas fórmulas ([13] y [16]) son en última instancia equivalentes, equivalentes, para evitar confusiones si encontramos distintas fórmulas en distintos lugares. Vamos a ver la equivalencia de estos procedimientos con un ejemplo que además clarifica el uso de estas fórmulas. En la tabla 4 tenemos los datos de tres grupos de tamaño distinto (A, B y C). n= M= σn =
A 10 8.00 3.898
B 9 11.55 4.7868
C 8 14.125 4.780
Tabla 4 El número total de sujetos es N = 27. Suponemos que la razón F es significativa (realmente lo es). Los cuadrados medios dentro de los grupos (que necesitamos para aplicar las fórmulas [13] y [16]) son, como ya sabemos (fórmula [5]), igual a Σnσ2/N - k = 22.539 Contrastamos las medias de los grupos C y A, primero con la fórmula [13]: 14.125 − 8.00 t' = = 2.7198 1 1 22.539 ( + ) 8 10 Los grados de libertad son: 3 (número de grupos) 24 (N-k, grados de libertad dentro de los grupos) En las tablas de q vemos que con un nivel de confianza de α = .05 necesitamos q = 3.53, por lo que el valor crítico de t’ (fórmula [14]) es por lo tanto: 3.53 t' = = 2.496 2 Como nuestro valor de t’ (2.719) supera este valor, rechazamos la Hipótesis Nula y concluimos que las muestras A y C difieren significativamente (proceden de poblaciones distintas con distinta media).
Análisis de varianza para muestras independientes
24
Para hacer este mismo contraste vamos a calcular ahora directamente el valor de q (fórmula [16]): Superamos el valor de 3.53 que vemos en las 14.125 − 8.00 = 3.846 q= tablas para 3 y 24 grados de libertad y (1 / 10) + (1 / 8) ⎤ ⎡ 22.539 ⎢ llegamos a la misma conclusión (p< 05) ⎥ ⎣
2
⎦
Verificamos por último que en el caso de dos muestras t =
q 2
Hemos obtenido un valor de t = 2.719 y de q = 3.846; efectivamente
3.846 = 2.719 2
4.1.4. Contraste de Games y Howell (GH) para muestras de distinto tamaño y varianzas desiguales
Cuando no estamos seguros de que las varianzas de las poblaciones a las que pertenecen nuestras muestras sean iguales, disponemos del contraste de Games y Howell (suele simbolizarse simbolizarse simplemente como GH) (está ( está programado en el SPSS). El procedimiento y las fórmulas son idénticos al contraste anterior de Tukey-Kramer libertad dentro de los grupos para buscar el valor de [13]; la diferencia está en los grados de libertad dentro q en las tablas; estos grados de libertad quedan reducidos y hará falta un valor mayor de F. En este caso la fórmula de los grados de libertad es la siguiente (Klockars y Sax, 1986; Toothaker, 1993) 22:
[(
2
/ n i ) + (σ k 2 / n k )] grados de libertad = (σ i2 / n i ) 2 (σ k 2 / n k ) 2 + n1 − 1 n k − 1 2 i
σ
[17]
Esta fórmula se puede expresar de una manera más simple que facilita el cálculo: grados de libertad =
(d i − d k ) d i2 n i −1
+
d 2k
[18]
σ2 donde d = n
n k −1
Como vemos en [17] los grados de libertad para consultar las tablas de q no son N-k, sino que los calculamos a partir de los valores de las desviaciones típicas (de las muestras) y del número de sujetos que tenemos en los grupos que comparamos. Lo normal es que obtengamos una cifra con decimales que podemos redondear al número entero más próximo. Podemos hacer la misma comparación entre las medias de los grupos C y A (tabla 4) asumiendo que las varianzas son muy diferentes. El valor de q ya lo tenemos calculado (3.846), lo que necesitamos son los grados de libertad; aplicando la fórmula [17] tenemos:
22 Es la fórmula de Satterthwaite (Dallal, 2001, en Significance Tests / Hypothesis Testing); como indica el mismo autor (Dallal, 2001) éste es el procedimiento utilizado por el programa SPSS en esta situación (muestras de tamaño distinto y varianzas desiguales). Análisis de varianza para muestras independientes
25
[
2
2
]
2
(4.78 / 8) + (3.898 /10) + (σ A2 / n A )] grados de libertad = = =13.46 (4.782 / 8)2 (3.8982 /10) 2 ( (σ A2 / n A ) 2 + + 8 −1 10 − 1 nC −1 nA −1
[(
2 C / nC ) 2 2 σ / n ) C C σ
2
Los grados de libertad son ahora 13 (redondeando decimales), bastante menos que los 24 (N-k) que teníamos antes. Para grados de libertad 3 (número de grupos) y 13, y α = .05 necesitamos un valor de q de 3.73 (mayor que q = 3.53 con 24 grados de libertad que teníamos antes), por lo que nuestro valor de q = 3.846 (mayor que 3.73) sigue siendo suficiente para no aceptar (rechazar) Hipótesis Nula. Esta fórmula de los grados de libertad de los cuadrados medios dentro de los grupos es aparentemente laboriosa, pero con muestras de tamaño muy distinto y varianzas claramente desiguales, este procedimiento es una buena alternativa al de Scheffé 23. 4.1.5. Contraste de Newman-Keuls El test de Newman-Keuls es muy popular, también requiere muestras de idéntico tamaño y es algo más liberal que el de Tukey; también utiliza las tablas de q. La fórmula es idéntica a la de Tukey [12], la diferencia está al consultar las tablas de q: 1º las medias se ordenan de más a menos y 2º el número de medias para consultar las tablas no es el número de medias que tenemos en el análisis de varianza sino las dos que se comparan más las que estén entre estas dos una vez ordenadas; es decir quedan excluidas las medias mayores o menores de las dos que comparamos. Los valores críticos de q bajan según baja el número de medias, por lo que resulta más fácil no aceptar la Hipótesis Nula; es por lo tanto un contraste más liberal que el de Tukey. El contraste de Duncan ( new multiple range test ) es una modificación del de NewmanKeuls, también se utilizan las tablas de q y es algo más liberal (programado en el SPSS). 4.1.6. Contraste Least Significant Difference (LSD) de Fisher. Con este contraste se utilizan las mismas tablas de la t de Student y se puede utilizar con muestras de distinto tamaño. La diferencia con la t de Student está en que en el denominador de la t (donde figura el error típico de la diferencia entre medias) colocamos los Cuadrados Medios dentro, por lo tanto la fórmula es: M1 − M 2 t (Fisher) = [20] 1 1 CM dentro [ + ] n1 n2 Cuando n = n esta fórmula es idéntica a la de Dunnett pero las tablas que hay que consultar en el contraste de Dunnett son distintas. Este contraste (LSD) sólo se debe utilizar si la F es significativa; es uno de los contrastes más liberales (es más fácil no aceptar la Hipótesis Nula).
23 Estos grados de libertad también son válidos, y recomendables, para consultar las tablas de la t de Student cuando comparamos dos muestras con tamaño y varianzas muy desiguales (Hinkle, Wiersma y Jurs, 1994; Coombs, Algina y Oltman, 1996). Análisis de varianza para muestras independientes
26
4.1.7. Contraste de Dunnett a) Válido para comparar las medias de los grupos experimentales (tratamientos) con un grupo de control ; no para comparar los tratamientos entre sí (está pensado para k-1 comparaciones; comparaciones; por eso se rechaza r echaza la Hipótesis Nula con más facilidad; están previstas menos comparaciones). Es útil precisamente en estos casos, cuando tenemos varios grupos experimentales experimentales y un grupo de control (está programado en el SPSS). b) Supone idéntico número de sujetos en cada grupo (n) aunque también podemos utilizar la media armónica de n, como vimos en el método de Tukey, cuando el número de sujetos es desigual pero muy parecido. Media tratamiento -Mediacontrol Fórmula del contraste de Dunnett: t' = [19] 2CMdentro n CMdentro, o cuadrados medios del error, son, como siempre en estos casos, los cuadrados medios (o varianza) dentro de los grupos. Este contraste tiene sus propias tablas para verificar la probabilidad de un determinado valor de t' 24. 4.1.8. Contrastes ortogonales Sin entrar en una explicación del procedimiento, mencionamos señalamos las características características de estos contrastes. 1) Se planifican de antemano, antes de recoger los datos y responden a hipótesis muy específicas, 2) Responden a preguntas independientes que no aportan información redundante redundante (por eso se denominan ortogonales, sin relación) 25, 3) Se pueden comparar tanto medias entre sí como combinaciones combinaciones de medias, 4) El número de comparaciones que es permisible hacer es limitado y no puede ser superior a k -1 (número de grupos menos uno). No los explicamos aquí pero los tenemos en programas de ordenador y se encuentran con facilidad en otros textos 26. 4.1.9. Valoración de los diferentes contrastes No todos los contrastes vistos son igualmente rigurosos, con unos es más fácil que con otros rechazar la Hipótesis Nula. En la lista siguiente 27 aparecen los más comunes, situados en un continuo según sean más liberales o más conservadores (según sea más fácil o más difícil rechazar la Hipótesis Nula).
24 Tablas de Dunnett en el documento con tablas estadísticas y en las direcciones de Internet indicadas en el apartado nº 9. 25 Si por ejemplo nuestra hipótesis es que los grupos A+C (dos grupos unidos en uno solo) tienen una media mayor que los grupos B+D (otros dos grupos unidos en uno solo), no podemos plantearnos también si la media de A es mayor que la de B, porque parcialmente esta comparación está incluida en la anterior. El término ortogonal (orthogonality) fué usado por primera vez por Yates en 1933 (StatSoft, Inc., 2007). 26 Los contrastes ortogonales no suelen venir explicados en textos de carácter más bien básico, pero sí en los de un nivel medio o superior, pues son algo más complejos que los que exponemos aquí. Pueden verse explicados en Klockars y Sax (1986), Guilford y Fruchter (1978) y Kirk (1995) entre muchos otros. Análisis de varianza para muestras independientes
27
Fisher (LSD) (Least Significant Difference) Duncan (new multiple range test) Newman-Keuls Tukey (Honestly Significant Difference) más conservador Scheffé Algunos autores recomiendan no utilizar los contrastes de Fisher, Duncan y NewmanKeuls cuando tenemos más de tres grupos; en este caso son contrastes demasiado liberales (se rechaza con demasiada facilidad la Hipótesis Nula) 28. Esta lista no incluye el test de Dunnett porque no está concebido para comparaciones múltiples, sino sólo para comparar distintas muestras experimentales experimentales con una sola muestra de control. Al disponer de tantas posibilidades distintas de hacer los contrastes posteriores, puede parecer que este paso, necesario por otra parte para llegar a las conclusiones finales, es complicado. En la práctica una buena orientación es escoger entre Scheffé y Tukey (son los que con más frecuencia aparecen en los libros de texto) o el de Dunnett cuando se trata de comparar varios grupos experimentales con un grupo de control o de referencia. Los contrastes de Tukey-Kramer y Games y Howell (variantes de Tukey) también son los oportunos en las circunstancias indicadas al comentar estos contrastes (ambos contrastes coinciden en el tamaño desigual de las muestras). Al decidir sobre la elección de alguno de estos contrastes es conveniente tener a la vista las observaciones hechas a propósito de los mismos29. Estos contrastes suelen dividirse en dos tipos: planificados de antemano (a priori) y no planificados de antemano (a posteriori o post hoc); el término post hoc se emplea frecuentemente para designar los contrastes hechos después de inspeccionar los datos . Los diversos contrastes para comparar las medias de dos en dos (como el de Tukey) suelen incluirse ente los métodos a posteriori, pero también pueden planificarse de antemano, por lo que esta distinción no es tan nítida; en un análisis exploratorio también se pueden especificar a priori los contrastes de interés 30. más liberal
27 Tomada de Huck, Cormier, y Bounds (1974); Black (1999) y Gerstman (2003) presentan cuadros semejantes y los mismos contrastes aparecen con el mismo orden. 28 Toothhaker (1993); Kirk (1995); Hancock y Klockars (1996) 29 Hancock y Klockars (1996) tienen una buena revisión crítica de todos estos contrastes. Entre los pocos que en última instancia recomiendan son Scheffé (para explorar), Tukey (para comparar entre sí todas las medias de dos en dos en muestras de idéntico tamaño) y Dunnett (no para hacer todas las comparaciones posibles sino únicamente para comparar muestras experimentales con una muestra de control). Keselman y otros (1998) tienen un interesante estudio sobre las preferencias metodológicas en los diversos tipos del análisis de varianza, tal como aparecen en investigaciones publicadas en 17 revistas de prestigio (Child Development, Developmental Psychology, American Educational Research Journal, Journal of Applied Psychology, etc.). Los contrastes posteriores más utilizados son por este orden: Tukey, Newman-Keuls, Scheffé y Fisher Least Least Significant Difference. También es posible utilizar contrastes distintos para comparar distintos pares de medias entre sí: “Most analysts agree that Fisher's LSD is too liberal. Some feel that Tukey's HSD is too conservative. While it is clear that the largest difference between two means should be compared by using Tukey's HSD, it is less obvious why the same criterion should be used to judge the smallest difference. The [Student]-Newman-Keuls Procedure is a compromise between LSD and HSD… I use Tukey's HSD for the most part… One general approach is to use both Fisher's LSD and Tukey's HSD. Differences that are significant according to HSD are judged significant; differences that are not significant according to LSD are judged nonsignificant; differences that are judged significant by LSD by not by HSD are judged open to further investigation” (Dallal, 2001). Este autor tiene una buena exposición (online ) sobre los distintos contrastes. 30 Hancock y Klockars (1996) reservan el término a posteriori exclusivamente al contraste de Scheffé; en Jaccard (1998:27) pueden verse discutidos estos términos. Análisis de varianza para muestras independientes
28
En los programas de ordenador con frecuencia aparecen de manera rutinaria una serie de contrastes (aquí no están expuestos o mencionados todos los posibles); lo recomendable es repasar la información disponible sobre estos contrastes para escoger e interpretar el (o los) que se estime más idóneo para una situación determinada. 4.2. Relevancia práctica de los resultados: proporción de varianza relacionada con la variable-criterio de clasificación y tamaño del efecto Mediante el análisis de varianza propiamente dicho y los contrastes posteriores verificamos si las diferencias entre las medias son estadísticamente significativas. Con esta expresión lo que queremos decir es si podemos considerar que las diferencias observadas entre los grupos en la variable dependiente (aquella en la que hemos medido a los sujetos) son mayores de lo que podemos esperar por azar, es decir, si no están dentro de la variabilidad normal. En ese caso podemos atribuir las diferencias a la pertenencia a alguno de los grupos (a un tratamiento, etc.). Ahora bien, esta significación estadística no coincide necesariamente con la significación (o relevancia) práctica: el efecto de un tratamiento (o de la pertenencia a un grupo determinado) puede ser estadísticamente significativo pero pequeño e irrelevante. Valores grandes de F y pequeños de p (como p<.001) no indican efectos o diferencias grandes. Un p <.05 con un grupo pequeño puede ser más importante que un p<.001 con una muestra grande. Para juzgar sobre la relevancia práctica de los resultados no tenemos un indicador preciso y hay que hacer juicios cualitativos, pero es útil poder apreciar la magnitud de ese efecto. Disponemos al menos de dos orientaciones orientaciones metodológicas relacionadas entre sí: a) Podemos estimar la proporción de varianza en la variable dependiente (la que hemos medido) asociada con el criterio que ha servido para clasificar a los sujetos (pertenencia a un grupo u otro). b) Podemos calcular un tamaño del efecto análogo al que hacemos en el contraste de dos medias. En el contexto del análisis de varianza y para poder interpretar mejor los resultados, posiblemente posiblemente lo más habitual es calcular la proporción de varianza que podemos atribuir a los criterios de clasificación (a la variable independiente). independiente). 4.2.1. Proporción de varianza relacionada con la variable-criterio de clasificación Esta proporción de varianza en la variable dependiente asociada o atribuible a los criterios de clasificación nos la dan una serie de coeficientes que pueden considerarse como un tamaño del efecto. Los coeficientes propuestos aquí son los coeficientes ω2 y η2. Estos coeficientes y otros análogos son importantes porque ayudan a poner de relieve la significación práctica de los resultados y son comparables en su interpretación al tamaño del efecto en el contraste de medias. Lo que no podemos hacer es calcular la media de estos coeficientes, como se hace en el meta-análisis, para resumir resultados de diversos estudios, ya que son siempre positivos y no indican la dirección de la diferencia. 4.2.1.1. El coeficiente
2
Este coeficiente ω2 puede aplicarse en el análisis de varianza unifactorial (un único factor o criterio de clasificación, el que estamos viendo ahora) siempre que las categorías de clasificación sean fijas (como suelen ser habitualmente, es decir, escogidas con criterios lógicos, y no escogidas aleatoriamente de una población mayor, por ejemplo de centros escolares, etc.). Análisis de varianza para muestras independientes
29
El coeficiente ω2 es un índice general de asociación entre dos variables, y, como ya se ha indicado, aporta una información análoga al tamaño del efecto en el contraste de medias. El valor de ω equivale a un coeficiente de correlación, y elevado al cuadrado nos indica la proporción de varianza compartida por las dos variables. En realidad no puede hablarse con propiedad de coeficiente de correlación, pues las categorías de clasificación (pertenencia a un grupo u otro) no son necesariamente continuas; continuas; en cualquier caso ω2 nos indica la proporción de varianza en la variable dependiente (la que hemos medido) atribuible a la pertenencia a uno u otro grupo. 1. Cuando los grupos son de idéntico tamaño En el análisis de varianza de una clasificación simple (un criterio de clasificación dividido en varios niveles, que es el modelo que estamos viendo) y con grupos de idéntico tamaño el cálculo es el siguiente (Guilford y Fruchter, 1973:245): (k - 1)(F- 1) ω = (k - 1)(F- 1) +kn +kn 2
[19]
En este caso tendremos que ω 2 =
k = número de grupos, n = número de sujetos en cada grupo, F = la razón F obtenida en el análisis. (3 − 1)(5.069 − 1) = .28 (3 − 1)(5.069 - 1) + (3)(7)
Este resultado nos indica que aproximadamente (se trata de una estimación) el 28% de la varianza (diferencias en los datos analizados) está relacionado con la pertenencia a uno u otro grupo. Con una F significativa sólo sabíamos que esta relación era superior a cero (que había relación, pero no cuánta). Esta otra fórmula del coeficiente ω2 da una estimación semejante: SCentre − (k − 1)CM dentro 2 [22] ϖ = SC total + CM dentro En nuestro ejemplo tenemos que:
ω2 =
164.87 − (3 − 1)16.26 = .28 457.79 + 16.26
2. Cuando los grupos son de distinto tamaño En las fórmulas anteriores se asume que los grupos son de idéntico tamaño (o no muy diferente). Cuando los grupos son de tamaño claramente desigual la fórmula que suele proponerse como estimación de ω2 es ésta (Kirk, 1995): SCentre -(k -1)C -1)CMdentro N + [k( - 1)CMdentro ] + CM dentro k
k = número de grupos N/k = tamaño medio de SCentre los grupos En nuestro ejemplo, aunque los grupos son de idéntico tamaño, aplicando esta fórmula tendríamos: 164.87 - (3 - 1)(16.26) 2 = .28 ϖ = 21 164.87 + [3( − 1)16.26] + 16.26 3
ω2 =
[23]
Análisis de varianza para muestras independientes
30
Para interpretar ω2 hay que tener en cuenta que 31: 1. Se trata siempre de categorías fijas (posiblemente (posiblemente el caso más común), 2 2. Un coeficiente ω negativo se considera igual a cero; 3. El coeficiente coeficiente ω2 sólo debe calcularse si F es significativo; 4. El coeficiente ω2 sólo puede aplicarse a las categorías de clasificación utilizadas; puede variar si se quitan o aumentan categorías. No sucede lo mismo con la interpretación del valor de F, que, si es significativo y las muestras son aleatorias, puede extrapolarse a la población. 5. El coeficiente ω2 se puede extrapolar a la población, al menos como estimación; en cambio el coeficiente η2 que veremos a continuación se refiere solamente a las muestras analizadas. 4.2.1.2. El coeficiente 2 Otro coeficiente, muy sencillo y muy utilizado y que da una aproximación menos exacta de la proporción de la variable dependiente atribuible a los criterios de clasificación es el coeficiente eta al cuadrado: SCentre es la Suma de Cuadrados entre grupos en este caso, SC entre 2 η = [24] pero en otros modelos de análisis de varianza puede ser SCtotal cualquier criterio de clasificación (puede haber más de un criterio de clasificación, como vemos en los cuadros de doble entrada propios de los diseños factoriales) La misma fórmula ya nos está indicando que se trata de una proporción: la proporción de varianza de la variable dependiente explicada por la variable cuya suma de cuadrados está en el numerador 32. En este planteamiento, varias muestras independientes, lo que tenemos en el numerador son las diferencias asociadas a pertenecer a uno u otro grupo. No se puede extrapolar a la población, se refiere solamente la muestra. Suele dar valores mayores que el coeficiente ω2 164.87 En nuestro ejemplo (tabla 2) tenemos que η2 = = .36 457.79 Si solamente conocemos del valor de F (podemos encontrarlo publicado) disponemos de esta otra fórmula (parecida a la [21]):
η2 =
(F)(grados de libertad entre) (F)(grados de libertad entre) + grados de libertad dentro
Aplicando esta fórmula a los datos de la tabla 2 tenemos: η2 =
[25] (5.069)(2) = .36 (5.069)(2) + 18
No sobra observar el parecido de la fórmula [25] con la que utilizamos para transformar el valor de t en un coeficiente de correlación [26]: 31 Guilford y Fruchter (1973:260); Kirk (1995:180) 32 Normalmente utilizamos η2 que es análogo a r 2 (que expresa la proporción de varianza común a dos variables); η (sin elevar al cuadrado) (también denominado correlation ratio en inglés) viene a ser un coeficiente de correlación no lineal (el coeficiente r de Pearson cuantifica relaciones lineares, no curvilíneas). Si se calcula η (grado de relación) solamente con dos variables continuas y relacionadas linealmente (a más de una, más de la otra), η equivale a r (explicación más detallada en Nunnally y Bernstein, 1994:135 y Rosenthal y Rosnow, 1991:323, 351). Análisis de varianza para muestras independientes
31
t2 r bp = 2 t + ( N1 + N2 - 2)
[26]
Realmente se trata de la misma fórmula si la elevamos al cuadrado (r 2 expresa la proporción de varianza compartida): en el caso de dos grupos t 2 = F y r = η; los grados de libertad entre los grupos son 2-1 = 1 y los grados de libertad al comparar dos grupos son N1+N2-2
η2 se puede utilizar con muestras de idéntico o distinto tamaño; es un estadístico meramente descriptivo, referido a la muestra, y su cálculo suele ser habitualmente suficiente; para extrapolar esta misma información a la población podemos calcular el coeficiente ω2 El coeficiente η2 si lo referimos a la población nos da una estimación demasiado alta; una estimación más ajustada del valor de η2 en la población la tenemos con este ajuste 33: ˜η2 = 1 − N −1 (1 − η 2 ) [27] N − k 21 − 1 Aplicado a nuestros datos (tabla 1) tenemos que: ˜η2 = 1 − (1 − .36) = .289 21 − 3 Este tipo estimaciones de la proporción de varianza de la variable dependiente explicada por la variable independiente pueden expresarse de varias maneras y conviene conocer las más usuales para evitar confusiones, ya que se trata de lo mismo, así la fórmula [27] es equivalente a esta otra 34 [28]: ˜η2 = CM total - CMdentro [28] CMtotal Tomamos los datos de la tabla 2. Para obtener los cuadrados medios (o varianza) del total nos basta dividir la suma de cuadrados por los grados de libertad: 457.79/20 =22.8895 22.8895 - 16.26 16.26 ˜η2 = 22.8895 = .289 Aplicando la fórmula [28] tenemos 22.8895 4.2.1.3. Valoración de estos coeficientes 1) Estos coeficientes (que también se aplican a otros modelos de análisis de varianza) son importantes como análisis complementarios, porque nos ayudan a juzgar sobre la relevancia de los resultados y su importancia relativa cuando tenemos varios coeficientes. 2) Se trata de coeficientes no direccionales; es decir, aunque nos facilitan el valorar la importancia de las diferencias entre las medias de la variable independiente, ya hemos indicado que no nos dicen en qué dirección está la diferencia. Estos coeficientes también se denominan tamaño del efecto (es un término de hecho muy genérico) porque expresan magnitud y no probabilidad (t o F nos remiten a una probabilidad). 3) Para los mismos datos los dos coeficientes, ω2 y η2, dan valores diferentes, por lo que no deben compararse entre sí ( η2 suele ser mayor que ω2). 4) ¿Cuándo se puede decir que estas proporciones de varianza explicada son grandes? 33 Hedges y Olkin (1985:102); Kirk (1995:180) 34 Estas y otras fórmulas pueden verse comentadas en Hedges y Olkin (1985:100ss.) Análisis de varianza para muestras independientes
32
No hay criterios definidos pero a la vista de lo que suele encontrase en la literatura experimental, experimental, si la variable independiente explica menos de un 5% de la variable dependiente se trata de una relación muy baja aunque sea real (no casual…), y un 10% de la varianza explicada puede considerarse mayor de lo que es normal encontrar (valoración de Linton, Gallo y Logan, 1975; para Runyon y Haber, 1984, es difícil encontrar valores que lleguen al 35%). Una valoración orientadora35 referida a ω2 es ésta: .01 expresa una asociación baja, .06 expresa una asociación media .14 o más expresa una asociación grande o apreciable. 5) En la práctica siempre es ilustrativo e informativo comparar unos valores con otros cuando proceden de planteamientos semejantes, e interpretar esos valores en términos relativos. Estos coeficientes se utilizan con categorías fijas (escogidas por el investigador); si se trata de categorías aleatorias (escogidas aleatoriamente de una población mayor, como sería el caso de una muestra de centros escolares, de profesores, etc., escogidos aleatoriamente aleatoriamente para representar una población), se utilizan los coeficientes de correlación intraclase que pueden verse tratados en diversos autores 36. 4.2.2. El tamaño del efecto Los coeficientes de asociación que hemos visto también son denominados tamaño del efecto, pero este término puede ser aquí equívoco en el sentido de que no cuantifican la diferencia entre dos medias; ahora nos referimos al tamaño del efecto en cuanto diferencia tipificada, propia del contraste de dos medias entre sí. En el análisis de varianza vemos dos tipos de tamaño del efecto: uno es semejante al habitual en el contraste de medias y nos cuantifica la diferencia entre dos medias; el otro nos da una apreciación global (como el coeficiente η) y en su uso e interpretación es análogo a los coeficientes de asociación. 4.2.2.1. El tamaño del efecto en la diferencia entre dos medias No es tan frecuente ver calculado el habitual tamaño del efecto como complemento a los contrastes posteriores, pero podemos hacerlo como en cualquier contraste de medias. Ya sabemos que el tamaño del efecto es una diferencia estandarizada: la diferencia entre dos medias dividida por la desviación típica común a ambas muestras. Nos expresa la diferencia entre dos medias en unas magnitudes fácilmente interpretables y comparables con cualquier otro tamaño del efecto aunque las escalas de medición sean muy distintas. Por otra parte disponemos de los criterios de Cohen (1988), muy seguidos habitualmente, habitualmente, para valorar estas magnitudes (en torno a .20 diferencia pequeña, en torno a .50 diferencia moderada y .80 o más diferencia grande). En el caso del análisis de varianza la desviación típica que ponemos en el denominador puede ser la desviación típica combinada de las dos muestras que comparamos, pero también podemos utilizar (y es más sencillo) la desviación típica combinada de todas las muestras de 35 Estas valoraciones las propone Cohen (1988:284-288) y son habitualmente tenidas en cuenta (un ejemplo indicativo es el conocido texto de Kirk, 1995:178); también se aplican a coeficientes análogos como η2 36 Por ejemplo en Hedges y Olkin (1985:101ss), Kirk (1995) y otros. Análisis de varianza para muestras independientes
33
nuestro planteamiento sobre todo si desconocemos las desviaciones típicas de las muestras o si las desviaciones típicas de todas las muestras no difieren mucho entre sí 37. Esta desviación típica, como ya sabemos, no es otra cosa que la raíz cuadrada de los cuadrados medios dentro de los grupos (porque estos cuadrados medios son la varianza común, no la desviación típica común). La fórmula del tamaño del efecto (que simbolizamos como d ) es por lo tanto 38: | Mi − Mk | d= [29] CMdentro Podemos calcular el tamaño del efecto de los grupos correspondiente a la diferencia entre los grupos 2 y 3 (tabla 1); el denominador (cuadrados medios dentro de los grupos) lo tomamos de la tabla 2. |15.428 − 8.571| 6.857 d= 1.70 ; podemos valorar esta diferencia como como grande. = = 1.70; 16.26 4.03 Si utilizamos en el denominador la desviación típica combinada de estos dos grupos nada más (algo que también podemos hacer), el tamaño del efecto que obtenemos es de 1.88, ligeramente mayor. Cuando la información disponible es sólo la razón F y el tamaño de los grupos, Thalheimer y Cook (2002) proponen esta fórmula para calcular una estimación del tamaño del efecto.
⎡ n + n ⎤ ⎡ n1 + n 2 ⎤ d = F ⎢ 1 2 ⎥ ⎢ ⎥ ⎣ (n 1 )(n 2 ) ⎦ ⎣ (n 1 + n 2 − 2) ⎦
[30]
4.2.2.2. El tamaño del efecto como apreciación global de la magnitud de las diferencias entre todas las medias Cuando tenemos solamente dos grupos, el tamaño del efecto es igual a la diferencia entre las dos medias dividida por la desviación típica combinada. Cuando hay más dos grupos simultáneamente, como sucede en el análisis de varianza, disponemos de un tamaño del efecto que no se refiere a la diferencia entre dos medias, sino a todas las diferencias de las medias con respecto a la media total. Lo que en este caso tenemos en el numerador es una cuantificación de la dispersión o de las desviaciones de todas las medias con respecto a la media común; comparamos estas diferencias entre todos los grupos con las diferencias entre los sujetos 39. Expresado este concepto del tamaño del efecto en términos no convencionales, la fórmula sería ésta [31]: tamaño del efecto efecto =
variabilidad de las medias variabilidad de los sujetos
[31]
37 Cortina y Mauri (1999:11ss) 38 Jaccard (1998:36); Cortina y Nouri (2000:13); en estos dos últimos autores puede verse un tratamiento más extenso y específico del tamaño del efecto en el contexto del análisis de varianza. 39 Explicado en Cohen (1988:274ss., 284). El numerador es análogo a la desviación típica de las medias; el denominador es el mismo visto en el apartado anterior (la raíz cuadrada de los Cuadrados Medios dentro de los grupos). El modo exacto de cálculo puede verse en Kirk (1995, 180ss) con un ejemplo resuelto; en la práctica es más sencillo atenerse al coeficiente ω2 Análisis de varianza para muestras independientes
34
En la práctica el cálculo más sencillo es a partir de η2 o ω2, pues ambos valores están relacionados de esta manera (Cohen ,1988:284). ω2 f = 1− ω 2
[32]
Este tamaño del efecto asociado a la razón F se simboliza como f (Rosenthal y Rosnow (1991:450; que en esta fórmula proponen η2 en vez de ω2). Naturalmente este tamaño del efecto no nos dice a quién favorece la diferencia, y no se puede utilizar para calcular el tamaño del efecto medio tal como se hace en el meta-análisis. Los valores de referencia para valorar la magnitud de este tamaño del efecto corresponden a los ya vistos de ω2: tamaño del efecto 2
ω f
pequeño
.01 .10
moderado
grande
.06 .25
.14 .40
En el caso de dos grupos nada más, y utilizando η2 en vez de ω2, f se relaciona con el tamaño del efecto (d de Cohen) de esta manera: f = d/2 (Rosenthal y Rosnow, 1991:450). Es más frecuente calcular ω2 o η2 que f; de comprensión más sencilla es η2 (una simple proporción) aunque es útil conocer también este tamaño del efecto (f) pues también se utiliza y además podemos encontrarlo en diversas tablas como referencia para calcular el número de sujetos necesario para un determinado experimento o estudio (la magnitud deseada es una variable que entra en la determinación del tamaño de la muestra). 5. Análisis de varianza cuando solamente conocemos los valores de las medias y de las desviaciones típicas Hacemos un primer lugar una observación de interés y que justifica este apartado. Los procedimientos procedimientos que suelen exponerse para resolver el análisis de varianza parten del supuesto de que conocemos todos los datos de todos los sujetos . Lo mismo sucede con los programas de ordenador (o de una hoja de cálculo como EXCEL); hay que introducir todos los datos individuales. Sin embargo éste no es siempre el caso: de varias muestras podemos conocer solamente (o simplemente tener a mano) los valores del número de sujetos, la media y la desviación típica. O podemos encontrar estos datos publicados en algún lugar. En estos casos, sin más datos de cada muestra (solamente n, M, σ), podemos resolver el análisis de varianza, y además de una manera muy simple; de hecho ya lo hemos visto en los apartados anteriores aunque en todos los ejemplos disponíamos de todos los datos individuales. Cuando no tenemos los datos de todos los sujetos, lo único que hay que tener previsto es cómo combinar medias y desviaciones típicas, y es lo que vamos a exponer aquí (las fórmulas están recogidas y demostradas en el anexo III). Vamos a verlo con dos ejemplos; en uno tenemos en cada grupo un número distinto de sujetos y en otro tenemos muestras de idéntico tamaño. 5.1. Cuando el número de sujetos es distinto en cada grupo Datos en un ítem de un cuestionario de evaluación de una universidad por los alumnos (valoración global de los profesores, en una escala de 1 a 5) en tres tipos de carreras de la misma universidad (tabla 5). Análisis de varianza para muestras independientes
35
n Media Desviación típica
A 1112 3.48 1.09
B 1214 3.97 1.06
C 400 4.34 1.10
Tabla 5 Lo primero que hacemos es calcular la media total (media ponderada por el número de sujetos en cada grupo): Σ nM (1112x3.48) + (1214x3.97) + (400x4.34) 104225.34 = Mt = = = 3.8244 Σn 1112 + 1214 + 400 2726 Suma de Cuadrados entre los grupos = Σn(M - Mt)2 = [1112 (3.48 - 3.824) 2] + [1214(3.97 - 3.824) 2] + [400 (4.34 - 3.824) 2] = 264.8525 Suma de Cuadrados dentro de los grupos = 3169.2176 Σnσ2 = (1112 x 1.09 2) + (1214 x 1.062) + (400 x 1.102) = Los resultados los tenemos en la tabla 6: Cuadrados Medios
Origen de la variación
Suma de Cuadrados (SC)
Grados de libertad
(gl)
SC CM = gl
Entre grupos
264.8525
3 -1 = 2
132.426
Dentro de los grupos
3169.2176
2726 - 3 = 2723
1.1638
F=
CM entre CM dentro
113.78 (p < .01)
Tabla 6 Podemos afirmar con mucha seguridad que los grupos pertenecen a poblaciones distintas por lo que respecta a cómo juzgan la calidad global del profesorado; el criterio de clasificación (variable independiente, facultades) tiene que ver con la variable dependiente, aunque está relación no es grande ( η2 = .08). Los contrastes posteriores adecuados serían los de Scheffé (muestras de tamaño muy desigual). Lo que no hemos hecho es calcular la suma de cuadrados del total; nos puede interesar para calcular η2, o para comprobar que las sumas de cuadrados están bien hechas, o para presentar completa la tabla de resultados. Podemos hacerlo sin dificultad, pero antes necesitamos necesitamos la varianza de los totales (de las tres muestras juntas). 2 2 n(M + ) Σ σ 2 Para combinar varianzas utilizamos esta fórmula 40: σ t = - M2t [33] Σn 1112(3.482 +1.09 2 )+1214(3.97 2 +1.062 ) + 400( 400(4. 4.34 34 2 +1.102 ) 2 2 σ A + B +C = -24 = 1.2594 2726 Esta varianza de los totales multiplicada por el número total de sujetos nos da la suma de cuadrados del total = (1.2594)(2726) = 3433.12.
40 Esta y otras fórmulas para combinar medias y varianzas están explicadas en el Anexo III. Análisis de varianza para muestras independientes
36
Si sumamos las dos sumas de cuadrados entre y dentro tenemos 264.8525 + 3169.2176 = 3434. Las dos sumas de cuadrados del total no son exactamente idénticas (calculadas por caminos distintos con distinto redondeo de decimales) por el diferente redondeo de decimales en cada paso, pero la diferencia es negligible. 5.2. Cuando el número de sujetos es el mismo en cada grupo El procedimiento es similar, aunque algo más sencillo. Vamos a utilizar los datos del primer ejemplo (tabla 1, reproducidos en la tabla 7). n Media Desv. típica
A 7 11.714 3.917
B 7 15.428 2.921
C 7 8.571 4.237
Tabla 7 Como cálculo auxiliar previo nos interesa la varianza de las medias, σ 2Μ = 7.854 Esta varianza, multiplicada por el número total de sujetos (N = 21) nos va dar la suma de cuadrados entre los grupos, y la suma de las tres varianzas de los grupos multiplicada por el número de sujetos que hay en cada grupo (n = 7) nos va dar la suma de cuadrados dentro de los grupos.
Podemos calcular la razón F directamente: suma de cuadrados entre Nσ 2Μ (21)(7.854) 164.934 82.467 grados de libertad entre 2 F = suma de cuadrados dentro = k − 12 = = 5.069 = 2 = (7)(41.8273) 292.79 16.266 nΣσ grados de libertad dentro 21 − 3 18 N − k Tenemos el mismo resultado que hemos obtenido en tabla 2. Como antes, no nos ha hecho falta calcular la suma de cuadrados de los totales . Nos puede interesar calcularla para comprobar que las sumas de cuadrados entre y dentro cuadran o para presentar completa la tabla de resultados. r esultados. Si vamos a calcular la suma de cuadrados total, nos va a hacer falta de nuevo la varianza de los totales, que multiplicada multiplicada por N nos va a dar la suma de cuadrados total. Como se trata de muestras de idéntico tamaño, la fórmula [33] queda simplificada así:
ΣΜ 2 + Σσ 2 σ = - M2t k 2 t
[34]
La media total (M t) , cuando las muestras son de idéntico tamaño, es igual a la media de las medias = 11.90 En nuestro caso : 11.714 2 +15.4282 +8.571 2 + 3.91 3.91772 + 2.92 2.92112 + 4.2378 4.23782 - 11.902 = 21.902 σ = 3 La suma de cuadrados de los totales será = (21 = N)(21.902) = 459.95 que es casi (por no utilizar en todos los casos los mismos decimales) igual a las sumas de cuadrados obtenidas antes (164.934 + 292.79 = 458, tabla 2). 2 A + B +C
Análisis de varianza para muestras independientes
37
Queda claro que a partir del número de sujetos, la media y la desviación típica de cada muestra (datos que con frecuencia están disponibles, porque los hemos calculado previamente, están publicados, etc.) es rápido y sencillo hacer todos los cálculos del análisis de varianza, sin necesidad de partir de todas las puntuaciones individuales (ni de utilizar un programa de ordenador). También con sólo estos datos, N, M y σ, disponemos de programas de Internet que nos resuelven el análisis de varianza (direcciones en el último apartado); en estos programas de Internet la desviación típica que hay que introducir es la de la población ( σn-1, dividiendo por N-1). 6. Análisis de varianza para dos muestras independientes Normalmente cuando tenemos dos muestras independientes utilizamos el contraste de medias (t de Student), pero podemos utilizar igualmente el análisis de varianza con idénticos resultados. En el caso de dos muestras independientes independien tes tenemos que t = F ; con ambos procedimientos llegamos a los mismos resultados y a las mismas conclusiones 41. 6.1. Utilizando las desviaciones de las muestras Desarrollamos el procedimiento con un ejemplo (tabla 9). Las operaciones son las mismas ya vistas a propósito de más de dos grupos (resultados en la tabla 8). Las operaciones para grupos de distinto tamaño son también válidas cuando son del mismo tamaño. Grupo A 22 18 24 22 16 18 13 18 19 22 n1 = 10 M1 = 19.2 σ1 = 3.156
Grupo B 12 16 10 10 4 6 17 14 14 10 n2 = 10 M2 = 11.3 σ2= 3.95
Cálculos previos
1º Calculamos la media y desviación típica (de la muestra; dividiendo dividiendo por N) de cada uno de los dos grupos; 2º Calculamos la desviación típica de los totales, de n1+ n2 = N = 20; σtotal= 5. 328 3º Calculamos la desviación típica de las dos medias (como si se tratara de un grupo de dos sujetos), σM = 3.95
Tabla 8 Sumas de Cuadrados
(numerador de las varianzas):
1. Del total: 2. Dentro de los grupos (SC dentro) de idéntico tamaño: de distinto tamaño:
Nσ 2t = (20)(5.328)2 =
567.75
n( σ21 + σ 22 ) = (10)(3.1 (10)(3.156 562 + 3.952) = n 1σ12 + n 2 σ 22 = (10 x 3.156 2 )+ (10 x 3.952) =
255.63 255.63
41 Cabe preguntarse si cuando se enseña y aprende el contraste de medias (t de Student) no sería preferible comenzar con el análisis de varianza, que se podría después aplicar con menor dificultad de comprensión a otras situaciones. De hecho la explicación dada en la introducción al análisis de varianza está referida al caso de dos muestras por ser más fácil de captar. Una limitación de utilizar el análisis de varianza con sólo dos muestras puede estar en que los valores de F se refieren solamente a pruebas bilaterales (Guéguen. 1997), pero también es verdad que son las pruebas que habitualmente utilizamos. Análisis de varianza para muestras independientes
38
3. Entre los grupos (SCentre):
Nσ M2 = (20)(3.95)2 = 312.05 2 2 n1(M1 - Mt ) + n2 (M2 - Mt) = [10(19.2-15.25)2] + [10(11.3-15.25)2] = 312.05 libertad (denominador de las varianzas) son: Los grados de libertad (denominador 20-1= 19 del total = N-1 (N = n1 + n2): dentro de los grupos = N - número de grupos: 20-2= 18 entre los grupos = número de grupos - 1: 2-1= 1 de idéntico tamaño: de distinto tamaño:
Origen de la variación
Suma de Cuadrados
(SC)
Entre de los grupos
312.05
Dentro de los grupos Variabilidad total
255.63 567.75
Cuadrados Medios
Grados de libertad
(gl)
varianza =
1 18 19 Tabla 9
312.05
SC gl
F=
CM entre CM dentro
21.97 (p < .01)
14.20
Con sólo dos grupos de idéntico tamaño los Cuadrados Medios entre los grupos se pueden calcular directamente de manera más sencilla (coinciden con la Suma de Cuadrados, numerador de la varianza, porque los grados de libertad, el denominador, es igual a 1): n(M1 − M2 ) 2 10(19.2 − 11.3) 2 = 312.05 CM entre = [33] = 2 2 19.219.2- 11.3 1.3 Si calculamos la t de Student: t = = 4.687 3.156 2 3.952 + 9 9 y 4.6872 = 21.967 pues t 2 = F (cuando sólo tenemos dos muestras). 6.2. Utilizando las desviaciones de las poblaciones Si calculamos las varianzas de las poblaciones ( σ 2n −1 ) en vez de las varianzas de las muestras (σ 2n )podemos calcular directamente y con toda facilidad los cuadrados medios (varianzas entre y dentro de los grupos) y la razón F, tal como hemos visto antes y tenemos resumido en la fórmula [6] y que repetimos aquí: F=
(n)(varianza de las medias σ 2n -1 ) media de las varianzas de los grupos (= Σσ 2n −1 / k )
[6]
1. Cuadrados medios dentro de los grupos Necesitamos las varianzas de los grupos dividiendo por N-1; podemos calcularlas directamente si se trata de pocos sujetos, pero si ya disponemos de las varianzas dividiendo por N y se trata de muchos sujetos y habría que introducir los datos en una hoja de cálculo o son datos que encontramos publicados o que tenemos guardados de otras ocasiones, podemos utilizar la fórmula [2], que a modo de ejemplo vamos a aplicar aquí: Análisis de varianza para muestras independientes
39
nσ 2n σ = n −1 (10)(3.1562 ) 2 σ n-1 = = 11.067 10 − 1 (10)(3.952 ) 2 σ n-1 = = 17.336 10 − 1 11.067 + 17.336 = 14.20 2 2 n-1
Grupo A: σn = 3.156 Grupo B: σn = 3.95 CMdentro = Σσ 2n −1 / k =
[2]
2. Cuadrados medios entre los grupos 2 Para calcular los cuadrados medios entre grupos necesitamos la varianza ( σ n-1 ) de las dos medias: 2 σ n-1 de M1 (19.2) y M2 (11.3) = 5.586 2 = 31.205
Cuadrados medios entre los grupos
3. Y finalmente
F=
2 = n x σ n-1 =(10)(31.205) = 312.05
2 (de las medias) n x σ n-1 2 Σσ n-1 (de los grupos)/número de grupos
=
312.05 = 21.97 14.20
Hemos llegado a los mismos resultados que tenemos en la tabla 9. Aunque en este caso se trataba de solamente de dos grupos, el procedimiento es igualmente válido para cualquier número de grupos de idéntico tamaño. 7. Cómo presentar los resultados del análisis de varianza Es importante presentar los resultados con claridad. Las tablas de resultados convencionales que se hacen en cada análisis de varianza son claras para presentar cada análisis de varianza, sobre todo si se trata de un solo análisis o de unos pocos, pero cuando se comparan varias muestras en una serie de variables, hay que buscar un método de presentación de conjunto que de manera casi intuitiva facilite facilite la comprensión e interpretación de los resultados tanto del análisis de varianza como de los contrastes posteriores. posteriores. En el ejemplo puesto como ilustración (tabla 10) 42 se han comparado entre sí cinco muestras en nueve variables (hay por lo tanto nueve análisis de varianza). En la primera columna aparecen el nombre de las variables y los valores de F, p y η2 de cada análisis. Aunque estos datos se pueden presentar de diversas maneras, lo que no debe faltar, siguiendo las recomendaciones de la APA (2001), es algún indicador del tamaño del efecto o algún coeficiente de asociación (como η2 en el ejemplo de la tabla 11) (APA, 2001). En la segunda columna están los grupos (dos muestras normativas) cuyas medias son significativamente mayores que las medias de las muestras puestas en la misma fila. Aparecen también los valores del contraste de Scheffé y la probabilidad asociada a estos valores. Los datos descriptivos de las muestras (número de sujetos, media y desviación) pueden figurar en otra tabla distinta.
42 Tomado de Gismero, Elena (1995). La conducta asertiva y su relación con la anorexia nerviosa. Madrid: Universidad Pontificia Pontificia Comillas. En esta presentación presentación hubiera sido útil incluir el tamaño del efecto. Análisis de varianza para muestras independientes
40
De manera intuitiva se ve qué muestras tienen en general medias mayores (segunda columna) y qué muestras tienden a tener medias más bajas. VARIABLE EXPRESIÓN DE DESACUERDO
muestras con medias más altas
CONTROL
muestras con medias más bajas
ANOREXIA
TERAPIA
3.407, p 3.407, p < .03
3.471, p 3.471, p < .02
F = 5.29,η2 = .114 p < .001
DIETA
AUTOAFIRMACIÓN ANTE EXTRAÑOS
DIETA
ANOREXIA
CONTROL
ANOREXIA
DIETA
3.984, p 3.984, p < .01 A NOREXIA 3.474, p 3.474, p < .02
CONTROL
ANOREXIA
F = 3.18, η2 = .07 p < .05 AUTOEXPRESIÓN SOCIAL η2 = .12 F = 5.632 p < .001 ASERTIVIDAD
TERAPIA
2.885 p 2.885 p < .08 3.05, p 3.05, p < .06
DIETA
4.1657, p 4.1657, p < .001 A NOREXIA 3.658, p 3.658, p < .05
CONTROL
ANOREXIA
GENERAL
F = 6.34, η2 = .13 p < 0001 SATISFACCIÓN PROPIO CUERPO F = 7.07, η2 = .15 p < 0001
DIETA TERAPIA
4.786, p 4.786, p < .001 A NOREXIA 3.474, p 3.474, p < .05 A NOREXIA 3.483, p 3.483, p < .02
AUTOCONCEPTO F = 23.22, η2 = .36 p < 0001
CONTROL
ANOREXIA
BULIMIA
DIETA
4.818, p 4.818, p < .0001 A NOREXIA 8.149, p 8.149, p < .0001
2.826, p 2.826, p < .10
3.931, p 3.931, p < .01
BULIMIA
TERAPIA
3.579, p 3.579, p < .02
4.70, p 4.70, p < .001
COMPRENSIÓN PARENTAL F = 23.22, η2 = .21 p < 0001 ACEPTACIÓN
CONTROL
ANOREXIA
BULIMIA
TERAPIA
DIETA
3.393, p 3.393, p < .03 A NOREXIA 3.313, p 3.313, p < .04
3.547, p 3.547, p < .01
5.24, p 5.24, p < .0001
BULIMIA
TERAPIA
3.587, p 3.587, p < .01
5.69, p 5.69, p < .0001
CONTROL
ANOREXIA
BULIMIA
TERAPIA
BULIMIA
TERAPIA
DIETA
5.101, p 5.101, p < .0001 A NOREXIA 4.389, p 4.389, p < .01
CONTROL
ANOREXIA
SOCIAL
F = 7.71, η2 = .16 p < 0001 AUTOCONCEPTO F = 24.44, η2 = .37 p < 0001
DIETA
8.03, p 8.03, p < .0001 A NOREXIA 8.04, p 8.04, p < .0001
3.306, p 3.306, p < .04 3.83, p 3.83, p < .01
TERAPIA
4.54, p 4.54, p < .001 5.02, p 5.02, p < .0001
Tabla 10 En este ejemplo (con variables en el ámbito de la asertividad y del autoconcepto) se puede observar, casi de un golpe de vista, que dos grupos, el de control (N = 57) y dieta (N = 33) no difieren entre sí y a la vez ambas muestras superan en casi todas las variables al grupo anorexia (N = 45) y en menos variables (posiblemente debido al menor número de sujetos en
Análisis de varianza para muestras independientes
41
estas muestras) a las muestras bulimia (N = 12) y terapia (N = 33); la muestra anorexia es la que aparece en peores condiciones en estas variables 43. Debajo del nombre de cada grupo está puesto el valor de Scheffé y su probabilidad; hubiera quedado más completa la información añadiendo el tamaño del efecto correspondiente a cada contraste. Otra manera de presentar los resultados es la que figura en la tabla 12. Además de presentar la tabla habitual de resultados y otra información relevante (puede ser suficiente una información semejante a la puesta en la primera columna de la tabla 11), si se quiere poner el énfasis en la magnitud de las diferencias entre los grupos, se puede hacer una tabla en la que figuren las diferencias estadísticamente significativas (la probabilidad p corresponde en este caso a los contrastes de Scheffé) y los tamaños del efecto al comparar las medias de dos en dos. Un ejemplo puede ser el de la tabla 11, comparando alumnos de diversas facultades facultades en la 44 importancia que se da a tener puestos de autoridad en distintas profesiones. Medias más bajas Pisco Derecho y Trabajo Filosofía Medias más Enfermería Ingeniería pedagogía Económicas Social Teología altas Derecho y p = .001 p = .000 ----p = .000 p = .04 Económicas d = .56 d = .65 d = .67 d = .50 Ingeniería p = .16 ----p = .096 d = .45 d = .47 Tabla 11 Esta información puede ir acompañada de algún gráfico como el de la figura 1 en el que se aprecian con facilidad las diferencias entre las medias. 11 10,5 10 s 9,5 a i d 9 e M 8,5 8 7,5 7 Psicopedag.
Enfermería
Derch. IngenieProfesiones Económ ría
Trabajo Social
Filosof. Teología
Figura 1 Otra manera de presentar un resumen r esumen de los resultados es ésta: 1º Se ordenan las medias de más a menos 2º Se unen con la misma línea continua las medias que no difieren entre sí
43 En un trabajo académico (como una tesis doctoral) las tablas completas de los resultados de cada análisis de varianza pueden ir en un anexo; lo que se presenta en esta tabla es un resumen significativo con la información que se va a interpretar o comentar.. 44 Datos tomados de la tesis doctoral de Rufino Meana La experiencia subjetiva de sentido y su relación con variables psicológicas y sociodemográficas, Universidad Pontifica Comillas (2003). Análisis de varianza para muestras independientes
42
Por ejemplo (ejemplo ficticio): Medias de cuatro grupos ordenadas de más a menos: I
II
III
IV
-No difieren entre sí el I y el II, I I, el II y el III y el III y el IV (unidos por línea continua) -El I supera al III y al IV y el II solamente al IV (no unidos por línea continua) También caben cuadros y resúmenes en los que se pueden incluir comentarios cualitativos como complemento a los datos cuantitativos. 8. El análisis de varianza en programas informáticos y en Internet 8.1. Análisis de varianza para muestras independientes en EXCEL y en el SPSS Para utilizar estos recursos hay ya manuales específicos, aquí nos limitamos a dar algunas indicaciones. Para utilizar EXCEL o el SPSS (y en general cualquier paquete informático con programas estadísticos) necesitamos introducir en primer lugar todos los datos de todos los sujetos; no podemos operar a partir solamente del número de sujetos, media y desviación típica de cada grupo. En este apartado nos referimos exclusivamente al análisis de varianza para varias muestras independientes. independientes. EXCEL. El análisis de varianza para muestras independientes se denomina en EXCEL análisis de varianza de un factor. Además de los datos descriptivos de cada grupo nos da la tabla final de resultados, pero no los contrastes posteriores. SPSS. SPSS. En analizar (barra superior) tenemos la opción comparar medias y allí ANOVA de un factor . De los contrastes posteriores comentados ( post hoc en el cuadro de diálogo) tenemos, entre otras opciones, los contrastes de Scheffe, Tuckey, Duncan (comentado en el apartado dedicado al contraste de Newman-Keuls del que es una variante; los contrastes de Duncan y Newman-Keuls para muestras de idéntico tamaño son algo más liberales que el de Tukey), Games-Howell (tamaño distinto y varianza desiguales, puede ser una buena alternativa a Scheffé) y Dunnett. Otros cálculos complementarios, como el coeficiente η2 y tamaño del efecto, se completan fácilmente con una calculadora teniendo las fórmulas a la vista. 8.2. Recursos en Internet relacionados con el Análisis de Varianza En Internet disponemos además de numerosos recursos para llevar a cabo análisis estadísticos. estadísticos. Pueden ser especialmente útiles en varias situaciones: a) Cuando no tenemos disponibles hojas de cálculo como EXCEL, o programas informáticos informáticos como el SPSS. b) Cuando de las distintas muestras tenemos disponibles el número de sujetos, las medias y las desviaciones; sólo con estos datos no podemos utilizar programas como el SPSS que requieren la introducción de todos los datos de todos los sujetos, pero sí podemos llevar a cabo un análisis de varianza con toda facilidad. Por lo que respecta al análisis de varianza en Internet hacemos una selección de páginas Web (hay muchas más) útiles con distintas finalidades 45.
45 Las direcciones de Internet son con frecuencia inestables pero disponiendo de información sobre títulos y autores no es difícil encontrar estas u otras con información semejante en los buscadores de Internet. Análisis de varianza para muestras independientes
43
8.2.1. Test de Bartlett para comprobar la homogeneidad de varianzas Si queremos verificar si las varianzas no difieren significativamente significativamente podemos utilizar el test de Bartlett, sencillo y programado en Internet, http://home http://home.ubalt.edu/nt .ubalt.edu/ntsbarsh/Busine sbarsh/Businessssstat/otherapplets/BartletTest.htm Basta introducir de cada muestra el número de sujetos y las varianzas (no las desviaciones típicas) y si p > .05 podemos aceptar la homogeneidad de varianzas (esta dirección, con otras muchas posibilidades de análisis estadísticos, se encuentra en la Home en Page de Hossein Arsham http://home.ubalt.edu/ntsbarsh/Business-stat/home.html JavaScript E-labs Learning Objects ) 8.2.2. Tablas de la F de Snedecor, Tukey, Dunnett y Bonferroni Las tablas convencionales que suelen estar en libros de texto también están disponibles en Internet. Tablas de la F de Snedecor Las tablas de la F de Snedecor se encuentran en muchas direcciones de Internet, con distintas presentaciones y para distintos niveles de confianza, por ejemplo: ALEXEI, SHAROV. Department of Entomolgy, Virginia Tech, Blacksburg, VA On-Line Lectures, http://www.en http://www.ento.vt.edu/~s to.vt.edu/~sharov/PopEcol harov/PopEcol/tables/f00 /tables/f005.html 5.html para α = .05, .01 y .001 GERSTMAN , B. BURT (2003). StatPrimer , http://www.s http://www.sjsu.edu/facu jsu.edu/faculty/gerstman lty/gerstman/StatPrimer/ /StatPrimer/ en Probability Tables para α = .10, .05, .025, .01 y .001 SIX SIGMA Reference Tables http://www.m http://www.micquality.c icquality.com/reference_t om/reference_tables/index ables/index.htm .htm para α = .01, .025, .05, .10 y .25 STATSOFT, I NC., Distribution tables, http://www.statsoft.com/textbook/sttable.html tablas para α = .10, .05, .025 y .01 Tablas de Tukey http://www.stat.duke.edu/ http://www.s tat.duke.edu/courses/Spring9 courses/Spring98/sta110c/q 8/sta110c/qtable.html table.html BISSONNETTE, VICTOR L., Berry College http://fsweb.berry.edu/acade http://fswe b.berry.edu/academic/educat mic/education/vbissonn ion/vbissonnette/ ette/ Some Useful Statistical Tables, http://fsweb.berry.edu/acade http://fswe b.berry.edu/academic/educat mic/education/vbissonn ion/vbissonnette/table ette/tables/posthoc.pdf s/posthoc.pdf CHAVES, COSME Introducción a la Estadística http://costaricalinda.com/Estadistica/ (tablas) Tablas de Dunnett ARMSTRONG, J. SCOTt http://www.fo http://www.forecastingprinc recastingprinciples.com/t iples.com/tables.pdf ables.pdf Reprinted from Armstrong, J. Scott, Long-Range Forecasting . New York, John Wiley 1985 (reproducidas de la publicación original de Dunnett (niveles de confianza .05 y .01 para pruebas de una y dos colas) LANE, DAVID M. HyperStat Online Statistics Textbook (http://davidmlane.com/hyperstat/index.html ) http://davidmlane.com/hyperstat/table_Dunnett.html (en Introduction to Between-Subjects Between-Subjects ANOVA→ Comparing means with a control) control ) Table Critical values for the Dunnett test http://www.watpon.com/table/dunnetttest.pdf
Análisis de varianza para muestras independientes
44
BISSONNETTE, VICTOR L., Berry College http://facu http://facultyweb.berry.edu/ ltyweb.berry.edu/vbissonnett vbissonnette/ e/ Some Useful Statistical Tables,
Table Critical values for the Dunnett test http://www.watpon.com/table/dunnetttest.pdf CHAVES, COSME Introducción a la Estadística http://costaricalinda.com/Estadistica/ (tablas) Tablas de Bonferroni BISSONNETTE, VICTOR L., Berry College http://fsweb.berry.edu/acade http://fswe b.berry.edu/academic/educat mic/education/vbissonn ion/vbissonnette/ ette/ Some Useful Statistical Tables, Critical Values of Dunn’s (Bonferroni) test (experimentwise α = .05) 8.2.3. Probabilidades exactas de la razón F en Internet Las probabilidades exactas de la razón F (y otros estadísticos) pueden verse al menos en estas direcciones: ONG, DEPARTMENT OF OBSTETRICS AND a) THE CHINESE U NIVERSITY OF HONG K ONG GYNAECOLOGY, http://depa http://department.obg.cuh rtment.obg.cuhk.edu.hk/research k.edu.hk/researchsupport/statm support/statmenu.asp enu.asp ; en Statistics Tool Box se busca Statistical Tests y allí Statistical Significance, o directamente http://dep http://department.obg.cu artment.obg.cuhk.edu.hk/resea hk.edu.hk/researchsupport/F_Tes rchsupport/F_Test.asp t.asp . b) HYPER STAT O NLINE TEXTBOOK (de David M. Lane) http://davidmlane.com/hyperstat/ en Analysis Tools buscar Tables; (hay varios programas; se puede ir directamente a http://davidmlane.com/hyperstat/F_table.html o a http://members.aol.com/johnp71/pdfs.html c) SISA, Simple Interactive Statistical Analysis (Daan Uitenbroek PhD, Research and Statistical Statistical Consultancy, Hilversum, The Netherlands) http://www.quantitativeskills.com/sisa/ (en significance testing). d) GRAPH PAD SOFTWARE http://graphpad.com/quickcalcs/PValue1.cfm 8.2.4. Cómo llevar a cabo un Análisis de Varianza en Internet Aunque en las páginas seleccionadas nos fijamos en el análisis de varianza para muestras independientes, podemos encontrar también programas para hacer otros tipos de análisis de varianza. Esta selección (es sólo una selección pues hay muchos más programas en Internet) la dividimos en dos apartados: a) cuando tenemos disponibles medias y desviaciones de las muestras y b) cuando vamos a introducir todos los datos de todos los sujetos. 8.2.4.1. A partir del número de sujetos, sujetos, medias y desviaciones de las muestras muestras Estos programas son muy útiles porque con frecuencia no disponemos de los datos de cada sujeto y los únicos datos disponibles de cada muestra (a veces en obtenidos en análisis previos) son el número de sujetos, la media y la desviación típica; con sólo estos datos no podemos acudir a EXCEL o al SPSS. Seleccionamos tres programas muy sencillos (hay muchos más); nos basta introducir el número de sujetos, la media y la desviación típica de cada muestra. a) PEZZULLO, JHON C. Web Pages that Perform Statistical Calculations . http://members.aol.com/johnp71/javastat.html (éste es el modo de citar esta fuente). Analysis of Variance from Summary Data http://members.aol.com/johnp71/anova1sm.html (en Web Pages that Perform Statistical Calculations! http://members.aol.com/johnp71/javastat.html ) Análisis de varianza para muestras independientes
45
La desviación típica que hay que introducir es la de la población (dividiendo por N-1); es lo normal en los programas de Internet. Si el número de sujetos es muy grande las dos desviaciones apenas difieren (dividir por 200 o por 199 no altera gran cosa los resultados) pero si se tiene calculada la desviación típica de la muestra ( σn) es muy sencillo calcular la de la población ( σn-1): Nσ n2 σn-1 = N −1 Este programa no calcula los contrastes posteriores. b) DANIEL SOPER .com .com http://www.da http://www.danielsoper.com nielsoper.com/default.as /default.aspx px en Statistics One-Way ANOVA from Summary Data calculators→ ANALYSIS OF VARIANCE Este programa no calcula los contrastes posteriores c) DEPARTMENT OF OBSTRETRICS AND GYNAECOLOGY, THE CHINESE U NIVERSITY OF HONG K ONG http://department.obg.c artment.obg.cuhk.edu.hk/Res uhk.edu.hk/ResearchSupport/OW earchSupport/OWAV.asp AV.asp La ONG http://dep referencia citada en esta fuente es: Armitage P. Statistical Methods in Medical Research (1971). Blackwell Scientific Publications. Oxford. P.189-207 Este programa da además simultáneamente el contraste de Tukey; también están programados los contrastes posteriores de Scheffé en http://department.obg.c http://dep artment.obg.cuhk.edu.hk/Res uhk.edu.hk/ResearchSupport/Le earchSupport/Least_sig_di ast_sig_diff_Scheffe.a ff_Scheffe.asp sp (en el menú de la izquierda, en categories buscar group differences ). 8.2.4.2. Introduciendo los datos de todos los sujetos Cuando hay que introducir todos los datos de todos los sujetos, lo habitual es utilizar EXCEL o el SPSS, pero también disponemos de programas en Internet. Un programa sencillo lo tenemos en K IRKMAN, T.W , College of Saint Benedict/Saint Johns University [http://www.csbsju.edu/ [ http://www.csbsju.edu/ ] http://www.ph http://www.physics.csbsju ysics.csbsju.edu/stats/ .edu/stats/anova.html anova.html;; el índice de análisis estadísticos de este centro está en http://www.physics.csbsju.edu/stats/ Los datos se pueden introducir de dos maneras, copiándolos de una tabla o introduciéndolos introduciéndolos directamente. Este programa no calcula los contrastes posteriores. Otro programa para llevara cabo un análisis de varianza introduciendo los datos de odos ICHARD, VASSAR STATS: Web Site for Statistical los sujetos es L OWRY, R ICHARD Computation,Vassar College, Poughkeepsie, NY, USA; http://faculty.vassar.ed http://fac ulty.vassar.edu/lowry/VassarSta u/lowry/VassarStats.html ts.html (ANOVA en el menú de la izquierda) 8.2.4.3. Contrastes posteriores Los contrastes de Bonferroni están programados en GraphPad, San Diego, CA [http://graphpad.com/ http://graphpad.com/]] Free Online Calculators for Scientists http://graphpad.com/quickcalcs/posttest1.cfm (en how the calculations are performed se especifica que se trata del test de Bonferroni) pero se trata de un contraste considerado demasiado conservador (tiene poca potencia para rechazar la Hipótesis Nula cuando realmente es falsa (Hancock y Klockars, 1996; Jaccard, 1998) 46. No se trata propiamente de contrastes posteriores, sino de las probabilidades equivalentes a .05 cuando hacemos
46 Pueden verse los comentarios hechos antes a propósito de estos contrastes y en el Anexo II. Análisis de varianza para muestras independientes
46
múltiples contrastes, y tampoco es un procedimiento pensado específicamente para el análisis de varianza. En DEPARTMENT OF OBSTRETRICS AND GYNAECOLOGY, THE CHINESE U NIVERSITY http://department.obg.cu rtment.obg.cuhk.edu.hk/Rese hk.edu.hk/ResearchSupport/OW archSupport/OWAV.asp AV.asp tenemos OF HONG K ONG ONG http://depa programados los contrastes posteriores de Scheffé, Scheffé, Tukey y los correspondientes a la prueba de Kruskal-Wallis que es la alternativa no paramétrica (utilizando rangos) al análisis de varianza para muestras independientes. 9. Referencias bibliográficas AMERICAN PSYCHOLOGICAL ASSOCIATION. (2001). Publication Manual of the American Psychological Association (5th edition). Washington, DC: Author. ARSHAM, HOSSEIN, Homepage http://home.ubalt.edu/ntsbarsh/Business-stat/home.html (en JavaScript E-labs Learning Objects ) BISSONNETTE, VICTOR L., Berry College (2000). Course Resources http://fsweb.berry.edu/acade http://fswe b.berry.edu/academic/educat mic/education/vbissonn ion/vbissonnette/ ette/ BLACK , THOMAS R. (1999). Doing Quantitative Research in the Social Sciences. London: Sage. CHAVES, COSME Introducción a la Estadística http://costaricalinda.com/Estadistica/ COHEN, JACOB (1988). Statistical Power Analysis for the Behavioral Sciences . Second Edition. Hillsdale, N.J.: Lawrence Elrbraum. COOMBS, WILLIAM T.; ALGINA, JAMES and OLTMAN, DEBRA OLSON, (1996). Univariate and Multivariate Omnibus Hypothesis Tests Selected to Control Type I Error Rates When Population Variances Are Not Necessarily Equal. Review of Educational Research, 66 (2), 137-179. CORTINA, JOSE M. and NOURI, HOSSSEIN (2000). Effect Size for ANOVA Designs. Quantitative Quantitative Applications in the Social Sciences. Thousand Oaks: Sage. DALLAL, GERARD E. (2001) The Little Handbook of Statistical Practice (en Multiple Comparisons) http://www.tufts.edu/~gdallal/LHSP.HTM (consultado 5 de Octubre, 2007). DEPARTMENT OF OBSTRETRICS AND GYNAECOLOGY, THE CHINESE U NIVERSITY OF HONG K ONG http://department.obg.cu rtment.obg.cuhk.edu.hk/inde hk.edu.hk/index.asp?scr=1024 x.asp?scr=1024 ONG, http://depa DOWNIE, N.M. Y HEATH, R.W., (1971). Métodos estadísticos aplicados. Madrid: Ediciones del Castillo ESCOTET , MIGUEL A., (1980). Diseño multivariado en psicología y educación. Barcelona: Ceac. GERSTMAN , B. BURT (2003). StatPrimer , http://www.s http://www.sjsu.edu/facu jsu.edu/faculty/gerstman lty/gerstman/StatPrimer/ /StatPrimer/ GISMERO , ELENA (1995). La conducta asertiva y su relación con la anorexia nerviosa. Madrid: Universidad Pontificia Comillas. GORDON, LEONARD V. (1973). One-Way Analysis of Variance Using Means and Standard Deviations. Educational and Psychological Measurement, 12 1973; vol. 33: pp. 815 816 GRAPH PAD SOFTWARE Online calculators for scientists http://graphpad.com/quickcalcs/PValue1.cfm GUÉGUEN, NICOLAS (1997). Manuel de Statistique pour Psychologues . Paris: Dunod. GUILFORD, J. P. y FRUCHTER , B., (1984). Estadística aplicada a la psicología y la educación, México: McGraw-Hill. [En Inglés: Fundamental Statistics in Psychology and Education, 1973. New York: McGraw-Hill].
Análisis de varianza para muestras independientes
47
HANCOCK , GREGORY R. AND K LOCKARS LOCKARS, ALAN J., (1996). The Quest for α: Developments in Multiple Comparison Procedures in the Quarter Century Since Games (1971). Review of Educational Research, 66, (3). 269 - 306. HEDGES, LARRY V. and OLKIN, I NGRAM, (1985). Statistical Methods for Meta-Analysis. New York: Academic Press. HINKLE, DENNIS E.; WIERSMA, WILLIAM and JURS, STEPHEN G. (1994). Applied Statistics for the Behavioral Sciences . Boston: Houghton-Mifflin. OBERT G., (1978). Two-Way Analysis of Variance HUCK , SCHUYLER W. and MALGADY, R OBERT Using Means and Standard Deviations. Educational and Psychological Measurement, 38, 235-237. HUCK , SCHUYLER W., CORMIER , WILLIAM H. AND BOUNDS, WILIAM G., (1974), Reading Statistics and Research, New York, Harper & Row JACCARD, JAMES (1998). Interaction Effecs in Factorial Analysis of Variance, Sage University Paper Series on Quantitative Applications in the Social Sciences. Thousand Oaks: Sage. K ESELMAN ESELMAN , H. J.; HUBERTY, CARL J.; LIX, LISA M.; OLEJNIK , STEPHEN; CRIBBIE, R OBERT OBERT OWALCHUK , R HONDA HONDA K.; LOWMAN, LAUREEN L.; A.; DONAHUE, BARBARA; K OWALCHUK PETOSKEY, MARTHA D. and K ESELMAN ESELMAN, JOANNE, C. (1998). Statistical Preferences of Educational Researchers: An Analysis of Their ANOVA, MANOVA and ANCOVA Analyses. Review of Educational Research, 68 (3), 350-385. K IRK IRK , R OGER OGER E., (1995). Experimental Design, Procedures for the Behavioral Sciences. Boston: Brooks/Cole. IRKMAN, T.W. (1996) College of Saint Benedict/Saint K IRKMAN Benedict/Saint Johns University. Statistists to Use. http://www.physics.csbsj http://www.p hysics.csbsju.edu/stats/ u.edu/stats/ K LOCKARS LOCKARS, ALAN J. and H ANCOCK , GREGORY R. (1998). A More Powerful Post Hoc Multiple Comparison Procedure in Analysis of Variance. Journal of Educational and Behavioral Statistics , Vol. 23 (3). LOCKARS, ALAN J. and SAX, GILBERT, (1986). Multiple Comparisons: Sage University K LOCKARS Paper Series on Quantitative Quantitative Applications in the Social Sciences. Newbury Park: Sage. LANE, DAVID M. HyperStat Online Statistics Textbook ( Last Last updated: 3/16/2009)http://davidmlane.com/hyperstat/index.html (consultado 07, 010, 2007) LINTON, MARIGOLD; GALLO JR .,., PHILLIP S. and LOGAN, CHERYL A., (1975), The Practical Statistician, Simplified Handbook of Statistics, Monterey, Brooks/Cole. MARTÍNEZ GARZA, Á NGEL, (1988). Diseños Experimentales . México: Trillas. NUNNALLY, JUM C. and BERNSTEIN, IRA H. (1994). Psychometric Theory , 3rd. ed., New York, McGraw-Hill. PERNEGER , THOMAS V. (1998). What's wrong with Bonferroni adjustments. British Medical Journal 1998;316:1236-1238 http://www.bmj.com/cgi/content/full/316/7139/1236 PEZZULLO, JHON C. Web Pages that Perform Statistical Calculations . http://members.aol.com/johnp71/javastat.html R ODRIGUES ODRIGUES, AROLDO, (1977). Investigación experimental en psicología y educación. México: Trillas. OSENTHAL, R OBERT OBERT and R OSNOW OSNOW, R ALPH ALPH L. (1991). Essentials of Behavioral Research, R OSENTHAL Methods and Data Analysis. Boston: McGraw-Hill. R UNYON UNYON, R ICHARD ICHARD P. y HABER , AUDREY, (1984) Estadística para las Ciencias Sociales, México, Fondo Educativo Interamericano. SHAROV, ALEXEI (1996). Quantitative Population Ecology, On-Line Lectures, http://home.comcast.net/~sharov/PopEcol/ SIX SIGMA Reference Tables http://www.mi http://www.micquality.co cquality.com/reference_ta m/reference_tables/index.h bles/index.htm tm Análisis de varianza para muestras independientes
48
STATSOFT, Inc. (2007). Electronic Statistics Textbook. Tulsa, OK: StatSoft. WEB: http://www.statsoft.com/textbook/stathome.html. THALHEIMER , WILL & COOK , SAMANTHA. (2002). How to Calculate Effect Sizes From Published Research Articles: A Simplified Methodology. A Work-Learning Research Publication Available online: http://www.learningaudit.com/white_papers/effect_sizes/Effect_Sizes_pdf4.pdf (consultado 30 de Mayo, 2011). TOOTHAKER , LARRY E., (1993). Multiple Comparison Procedures, Sage University Paper Series on Quantitative Applications in the Social Sciences. Newbury Park: Sage. UITENBROEK , DAAN SISA, Simple Interactive Statistical Analysis. http://www.quantitativeskills.com/sisa/ WILDT, ALBERT R. and AHTOLA, OLLI T., (1978). Analysis of Covariance, Sage University Paper Series on Quantitative Quantitative Applications in the Social Sciences. Beverly Hills: Sage.
Análisis de varianza para muestras independientes
Análisis de varianza para varias muestras relacionadas
Universidad Pontificia Comillas Facultad de Ciencias Humanas y Sociales ©Pedro Morales Vallejo (Última revisión, 1 de Diciembre de 2009)
índice
1. Introducción............................................. Introducción..................................................................... ................................................ .................................... ............ 3 2. Análisis de varianza................................................... varianza........................................................................... .......................................... .................. 5 3. Observaciones Observaciones sobre los grados de libertad...................................... libertad......................................................... ................... 8 3.1. La condición de esfericidad ........................................... .................................................................. ............................ ..... 8 3.2. Cómo proceder en la práctica........................................... práctica.................................................................... ........................... 8 4. Contrastes posteriores............................................. posteriores..................................................................... ............................................. ..................... 10 5. Análisis complementarios: complementarios: los coeficientes coeficientes de asociación y de de fiabilidad.......... 10 5.1. Coeficientes de asociación ( η2 y η2 parcial) ............................................ ..................................................... ......... 5.2. Coeficientes Coeficientes de fiabilidad fiabilidad ................................................. .......................................................................... ............................ ... 5.2.1. Fiabilidad de filas y columnas...................... columnas ............................................... ...................................... ............. 5.2.2. Relación entre fiabilidad (consistencia interna) y análisis de varianza para muestras relacionadas............................................ relacionadas.................................................................. ...................... 5.2.3. Cuando las dos razones F (de las filas y de las columnas ) son estadísticamente estadísticamente significativas significativas ................................................ ..................................................... ..... 5.2.4. Análisis de varianza para muestras relacionadas y el coeficiente α de Cronbach................................... Cronbach.......................................................... ........................... 6. Un ejemplo de análisis de varianza para muestras relacionadas......................... relacionadas ......................... 6.1. Análisis de varianza..................... varianza .............................................. .................................................. ........................................ ...............
10 11 11
6.2. Coeficientes de fiabilidad y η2 ............................................. .................................................................... ......................... 6.3. Contrastes posteriores y representación gráfica ........................................... ........................................... 7. Análisis de varianza para muestras relacionadas en EXCEL y en el SPSS ........ 8. El análisis de varianza para muestras relacionadas en Internet........................... 9. Referencias bibliográficas bibliográficas ............................................... ........................................................................ .................................... ...........
21 22 22 23 23
13 16 18 19 19
2
Análisis de varianza para muestras relacionadas
3
1. Introducción
En este modelo de análisis de varianza 1 tenemos los mismos sujetos con observaciones o puntuaciones en la misma variable pero en condiciones distintas o en la misma condición pero en tiempos distintos 2. Como se trata de los mismos sujetos tenemos muestras relacionadas . También puede tratarse de sujetos físicamente distintos pero igualados en variables relevantes (variables que controlamos con esta igualación); en este caso se trata también de muestras relacionadas. relacionadas. En la presentación de los datos las filas son los sujetos, y las columnas son las condiciones. Una ventaja de utilizar a los mismos sujetos en tratamientos experimentales es que necesitaremos menos sujetos que si se trata de muestras independientes: si queremos comprobar la eficacia relativa de tres actividades distintas de aprendizaje con sujetos distintos, y estimamos en 10 el número mínimo de sujetos, necesitaremos 30 sujetos. Si utilizamos a los mismos sujetos en las tres actividades, nos bastarán 10 sujetos, y además no tenemos que preocuparnos de que los tres grupos sean equivalentes pues se trata siempre de los mismos sujetos 3. Se trata de comprobar en qué medida la variabilidad total se debe a diferencias entre los sujetos (filas), a diferencias entre las condiciones (columnas) o a la interacción entre filas y columnas. Podemos distinguir varios planteamientos sencillos que se pueden analizar mediante este modelo de análisis de varianza. Realmente se trata del mismo planteamiento, pero puede resultar sugerente verlo desde diversas perspectivas o desde diversas preguntas de investigación que podemos hacernos y cuyas respuestas r espuestas podemos encontrar en este modelo de análisis de varianza. Se trata de un método de análisis válido siempre que se trate de muestras experimentales en sentido propio. relacionadas, aunque no se trate de diseños experimentales 1º Cuando los mismos sujetos van a pasar por una serie de tratamientos experimentales. experimentales. La variable dependiente, la que medimos, es siempre la misma (medidas repetidas), como puede ser aprendizaje, satisfacción, mejoría, etc., que medimos después de cada tratamiento. En este caso cada condición (distintos (distintos métodos, etc.) puede influir en los tratamientos o experiencias subsiguientes: el aprendizaje previo, el cansancio, etc., de una ocasión puede estar influyendo en los resultados de la ocasión siguiente. Este problema (derivado del orden en el que los sujetos pasan por las distintas experiencias) puede resolverse de dos maneras: a) Mediante diseños equilibrados (counterbalanced): los sujetos pasan por los distintos tratamientos en un orden distinto, para neutralizar o minimizar los efectos del aprendizaje previo, cansancio, etc. 4
1 También se le denomina a veces de clasificación doble, o de un factor con medidas repetidas, o de dos factores con una muestra por grupo (en EXCEL); el término más genérico y claro es sencillamente análisis de varianza para muestras relacionadas: en todas las condiciones ( en cada fila) tenemos a los mismos sujetos o a sujetos igualados. 2 Si lo que deseamos es conocer no si hay diferencias entre ocasiones, sino si se advierte una tendencia a aumentar o disminuir, tenemos un análisis de varianza específico para verificar tendencias que veremos más adelante. 3 Sobre estas y otras ventajas e inconvenientes de este modelo de análisis de varianza, y sobre el número de sujetos, puede verse Pascual, Frías y García (1996:137; 203) y en monografías como la de Ximénez y San Martín (2000) que incluyen cómo llevar a cabo este análisis de varianza con el SPSS. 4 Una manera práctica de hacerlo puede verse en Girden (1992:3). Análisis de varianza para muestras relacionadas
4
b) Utilizando sujetos distintos en cada condición, pero igualados en características importantes (como podrían ser sexo, edad, rendimiento previo, etc.). Si los tratamientos (columnas) son tres (por ejemplo), se divide a la muestra en bloques de tres sujetos igualados en variables que pueden afectar a la variable dependiente (los resultados, el progreso o efecto de una terapia o método, etc.). Si se tratara de ensayar tres procedimientos de aprendizaje, se podría igualar a los sujetos de cada fila en rendimiento previo, motivación, sexo, etc. Preferiblemente los tres sujetos de cada bloque se asignan aleatoriamente a los diversos tratamientos (en un diseño experimental en sentido propio). 2º Este modelo de análisis de varianza suele presentarse en el contexto de los diseños experimentales (los mismos sujetos pasan por diversas condiciones o experiencias), pero esta presentación, hecha de manera muy restrictiva, puede dejar fuera de nuestra atención otras posibilidades de interés y además muy sencillas y asequibles. Si los mismos sujetos valoran (por ejemplo un una escala escala de 1 a 5) la eficacia, gusto, importancia, utilidad, etc., de una serie de conceptos del mismo ámbito (actividades, motivaciones, etc.) tenemos muestras relacionadas: los sujetos dan su valoración mediante respuestas escritas (se limitan a responder a varias preguntas) según su experiencia, sin necesidad de hacer en ese momento ningún experimento; la vida ya ha hecho que pasen por las diferentes situaciones o condiciones. Es decir, no necesitamos necesariamente que los sujetos pasen por diversas experiencias o condiciones; basta que respondan a una serie de preguntas sobre una serie de conceptos o variables del mismo ámbito. En esta situación el orden en el que se valoran los distintos elementos deja de ser un problema (o se puede alterar el orden de los ítems presentados en los cuestionarios si pensamos que el orden puede condicionar las respuestas). r espuestas). 3º El ejemplo que nos va a servir para introducir el método también sugiere otras posibilidades: cuando varios profesores evalúan a los mismos alumnos ¿De dónde vienen las diferencias? ¿De que los alumnos son distintos y los profesores tienden a coincidir en sus juicios? (éste sería un resultado deseable) ¿O de que los profesores son distintos en su modo de evaluar? En general siempre que tengamos un grupo de evaluadores que valoran a los mismos sujetos (o conceptos, etc.) este análisis nos permitirá apreciar el grado de consistencia o de acuerdo de los evaluadores al diferenciar unos sujetos (o conceptos) de otros 5. 4º Este análisis de varianza se presta de manera especial a determinar la jerarquía de valores de un grupo, o más genéricamente para evaluar valores (es una aplicación más específica de lo dicho en el apartado anterior). Si un grupo valora una serie de conceptos (que pueden expresar valores, como libertad, igualdad, progreso económico, etc.) según su importancia (en una escala de nada a muy importante), podemos ver: a) En qué medida los sujetos son consistentes (están más o menos de acuerdo) ordenando estos conceptos según su importancia; podemos calcular unos coeficientes de fiabilidad que nos indicarán en qué grado los sujetos están de acuerdo diferenciando unos conceptos de otros. b) Qué valores difieren entre sí (en importancia) por encima de lo que se podría esperar por azar: podemos desembocar en un orden que en un cierto grado refleja la jerarquía de valores (o simplemente de preferencias) prevalente en el grupo. 5 Un ejemplo semejante (con un planteamiento algo más complejo) puede verse en Waddington (2000): cinco profesores corrigen tres veces los trabajos (traducción del inglés al español) de 64 alumnos utilizando cada vez un método distinto de corrección; se trata de verificar con qué procedimiento los profesores difieren menos entre sí. Análisis de varianza para muestras relacionadas
5
De la misma manera que pensamos en valores, podemos pensar en otras categorías: los sujetos pueden valorar motivaciones, problemas, etc., incluso lo que puede parecer más trivial, como colores o programas de televisión. Siempre es posible establecer una jerarquía (si la hay) de preferencias (término más global que valores). En la exposición del método distinguimos dos partes: 1º el análisis de varianza propiamente dicho; 2º Cálculos complementarios, como los coeficientes coeficientes de asociación y de fiabilidad . Si en las columnas tenemos los ítems de un test o escala, ya veremos más adelante que con este planteamiento podemos calcular el mismo coeficiente de fiabilidad que habitualmente calculamos con otros procedimientos (como el coeficiente α de Cronbach). Una utilidad específica de este modelo de análisis de varianza es precisamente que puede ayudar a la comprensión del coeficiente más utilizado de fiabilidad ( α de Cronbach), que posiblemente como mejor se comprende es a partir del análisis de varianza (dedicaremos un apartado específico a este tema con algunos ejemplos). 2. Análisis de varianza
En el ejemplo utilizado para exponer el método (tabla 1) 6 las filas son alumnos (f = 6) y las columnas son profesores (c = 4) que han evaluado en la misma característica a los seis alumnos. Las preguntas que nos hacemos son estas: Las diferencias que observamos en los datos: * ¿Se deben a que los profesores son distintos evaluando? (unos son más benévolos, otros lo son menos…) * ¿O más bien las diferencias se deben a que los alumnos son distintos en la variable medida, y son así vistos por sus profesores con un grado suficiente de acuerdo? Si la varianza de las filas (alumnos) es estadísticamente significativa (superior a lo aleatorio) tendremos un dato a favor de la unanimidad unanimidad de los profesores: si hay diferencias se deben sobre todo a que los alumnos son distintos, no a que los profesores son distintos en su estilo de evaluar (por ejemplo más o menos benévolos) o a la interacción profesor-alumno. profesores ( columnas)
alumnos (filas)
totales columnas medias columnas
A 10 4 8 3 6 9 40 6.67
B 6 5 4 4 8 7 34 5.67
C 8 3 7 2 6 8 34 5.67
D 7 4 4 2 7 7 31 5.17
total
media
filas
filas
31 16 23 11 27 31
7.75 4.00 5.75 2.75 6.75 7.75
Tabla 1
6 Los datos están tomados del ejemplo que presenta el texto de Downie y Heath (1971); el modo de resolver el análisis de varianza que exponemos aquí es sin embargo distinto y más sencillo si se dispone de una calculadora con programación estadística. En EXCEL se hace fácilmente buscando Análisis de datos en Herramientas; este análisis se denomina en EXCEL Análisis de varianza de dos factores con una muestra por grupo (no incluye los contrastes posteriores, ni los coeficientes que se van a exponer).
Análisis de varianza para muestras relacionadas
6
De las filas y de las columnas sólo necesitamos necesitamos o las medias o los totales; lo que resulte más cómodo. Con frecuencia las medias y desviaciones (de las filas o de las columnas) son un dato informativo de interés en sí mismo. Aunque programas como el SPSS o incluso EXCEL nos lo pueden dar resuelto, el procedimiento que exponemos nos ayudar a ver cómo descomponemos descomponemos la varianza total en las varianzas parciales que nos interesan; además si no disponemos de estos recursos, con una simple calculadora con programación estadística (para calcular medias y las desviaciones) podemos resolverlo con toda facilidad, sobe todo con muestras pequeñas. 1º Cálculos previos
1. Calculamos las medias (o simplemente los totales) de cada fila y de cada columna; ahora suponemos que hemos calculado las medias de filas y de las columnas. 2. Calculamos las desviaciones típicas (o las varianzas directamente): directamente): del total (de todos los datos; N = cxf = 24 datos): de las medias de las columnas (Mc): de las medias de las filas (Mf):
σt = σMc= σMf =
2.198 .547 1.873
Si en vez de las medias de las filas o las columnas hemos calculado los totales de las filas y/o de las columnas, calculamos sus desviaciones típicas: desviación típica:
de los totales de las columnas (tc): de los totales de las filas (tf):
σtc = σ tf =
Es importante advertir que en todos los casos N = número de datos, sujetos) o número de filas por número de columnas (c x f = 24 en este caso).
3.269 7.492
(no número de
2º Cálculo de las sumas de cuadrados
Calculamos las Sumas de Cuadrados a partir de las desviaciones desviaciones típicas ya calculadas y de N (número de datos); las fórmulas aparecen en la tabla 2; en este caso utilizamos las desviaciones típicas de las medias de filas y columnas. También podemos ir colocando los resultados directamente directamente en la tabla 3. SC de las filas:
2 SCfilas = N σ Mf =
(24)(1.873)2 =
84.19
SC de las columnas:
2 SCcolumnas = N σ Mc =
(24)(.547)2 =
7.18
SC de la interacción:
SCtotal - (SCfil + SCcol) =
SC de los totales:
SCtotal = N σ t =
2
(115.95) - (84.19 + 7.18)= (24)(2.198)2 =
24.58 115.95
Tabla 2 Si en vez de calcular las medias de filas y columnas, hemos sumado el total de las filas y de las columnas, calcularemos las desviaciones típicas: de los totales de las filas de los totales de las columnas
σtf = 7.492 σtc = 3.269
En este caso las Sumas de Cuadrados son:
Análisis de varianza para muestras relacionadas
7
f SCf = (σ tf 2 )( ) = c c de las columnas: SCc = (σ tc2 )( ) = f
6 ⎞ (7.492)2 ⎛ 84.19 ⎜ ⎟= ⎝ 4 ⎠ 4 ⎞ (3.269)2 ⎛ 7.13 ⎜ ⎟ == ⎝ 6 ⎠ Si calculamos las Sumas de Cuadrados a partir de las medias nos dará el mismo resultado que si las calculamos a partir de los totales, salvo pequeñas diferencias por el redondeo de decimales (y que a efectos prácticos no tienen mayor importancia). Si sumamos las Sumas de Cuadrados de filas y de columnas veremos que esta suma no es igual a la Suma de Cuadrados total; la variabilidad del total de las puntuaciones no se explica solamente por la variabilidad de las filas (diferencias entre los alumnos) y de las columnas (diferencias entre los profesores); nos queda la variabilidad debida a la interacción entre filas y columnas (alumnos y profesores). A esta fuente de variación se le denomina residual (también interacción, resto), y es la que nos queda cuando eliminamos la variabilidad debida a las diferencias sistemáticas de filas y de columnas. Esta varianza, aleatoria y no controlada, va a ser el término de comparación de las otras dos varianzas.
de las filas:
3º Grados de libertad
Los grados de libertad son:
de las filas de las columnas de la interacción del total
f-1= c-1= (f-1)(c-1)= N-1=
(6-1) (4-1) (5 x 3) (24-1)
= 5 = 3 = 15 = 23
4º Tabla de resultados
En la tabla apropiada [3] vamos poniendo los resultados. Al consultar las tablas de la razón F nos fijaremos en los grados de libertad del numerador (de las filas y de las columnas) y del denominador (de la interacción). Esta es la norma general, pero en este caso, muestras relacionadas, esta norma puede variar como indicaremos al final, en el apartado observaciones sobre los grados de libertad . origen de la variación filas
(alumnos) columnas
SC
gl
numerador
denominador
84.19
5
(profesores)
7.18
3
interacción
24.58
15
total
115.95
23
CM = SC/gl Varianza (σ2) 84.19 = 16.84 5 7.18 = 2.39 3 24.58 = 1.64 15
2
F
2
= σ /σ interacción 16.84 = 10.27 1.64 2.39 = 1.46 1.64
p < .01 > .05 (no sign.)
Tabla 3 5º Interpretación
1. La variabilidad debida a diferencias entre los alumnos es significativamente superior a la debida a la interacción profesor-alumno (grados de libertad: 5 y 15, para α = .05 necesitamos F = 2.90, que es el valor que viene en las tablas, y nosotros hemos obtenido 10.27). La varianza se debe a que los alumnos son distintos (no a que los profesores son Análisis de varianza para muestras relacionadas
8
distintos); los profesores en este caso han establecido diferencias entre los alumnos valorándolos sin grandes discrepancias. discrepancias. 2. Sobre los grados de libertad para consultar las tablas hacemos después unas observaciones importantes . El procedimiento habitual (utilizar los grados de libertad de las dos varianzas que se comparan) no siempre es el adecuado en este caso, porque no se cumplen determinados requisitos de este modelo. Como indicamos en las observaciones, los grados de libertad más seguros son 1 y N-1. 3. La variabilidad entre los profesores (diferencias sistemáticas de los profesores en su estilo de calificar) no es significativa (grados de libertad 3 y 15, para α = .05 necesitamos F = 3.29). Los profesores no difieren apreciablemente entre sí, y las diferencias que puede haber entre ellos (en su estilo de evaluar, más o menos severos) apenas contribuyen a la varianza total. 3. Observaciones sobre los grados de libertad 3.1. La condición de esfericidad
Cuando se mide en varias veces sucesivas a los mismos sujetos (y siempre que tengamos muestras relacionadas) relacionadas) como es frecuente en muchos diseños experimentales (o en estudios exploratorios), estas medidas están correlacionadas; correlacionadas; en este caso bajan los cuadrados medios del término del error (el denominador de la razón F) y se obtiene con mayor facilidad un valor de F significativo. Un supuesto implícito en este modelo (medidas repetidas), para que los valores de F con los grados de libertad especificados antes sean válidos (es decir, que correspondan a la probabilidad indicada en las tablas), es la condición denominada de esfericidad, que viene a decir que las covarianzas entre cada par de tratamientos son las mismas (de ocasión a ocasión el cambio es idéntico) 7. Cuando esta condición no se cumple, y no suele cumplirse, la distribución de F que viene en las tablas no es exacta y es de hecho muy liberal: se rechaza con demasiada facilidad la Hipótesis Nula. 3.2. Cómo proceder en la práctica
La recomendación más aceptada es la siguiente: 1. Si la F no es significativa con los grados de libertad usuales [(f-1) o (c-1) y (f-1)(c1)], el resultado no es significativo; significativo; hasta aquí es la práctica habitual. 2. Los grados de libertad más conservadores, y ciertamente siempre correctos (no inducen a error), son 1 y N -1 (N es aquí el número de sujetos, no el número de datos); si con estos grados de libertad el resultado es estadísticamente significativo se puede rechazar la Hipótesis Nula con seguridad. En el ejemplo que nos ha servido para exponer el método, la razón F correspondiente a las filas es de 10.27; con 5 y 15 grados de libertad debemos alcanzar el valor de 2.90 según las tablas, y lo superamos con creces. Con grados de libertad 1 y N -1 (1 y 5) el valor de F que viene en las tablas es 6.61; también lo superamos (con lo que p < .05, pero no p < .01) por lo que podemos rechazar la Hipótesis Nula con el criterio más conservador.
7 En términos más estadísticos: si convertimos la matriz de correlaciones en una matriz de varianzas-covarianzas, las varianzas deberían ser idénticas entre sí y lo mismo las covarianzas. Análisis de varianza para muestras relacionadas
9
3. Si vemos que el resultado no es significativo con 1 y N -1 grados de libertad, todavía puede serlo con los ajustes en los grados de libertad. Hay dos ajustes posibles, uno más conservador ( εˆ , de Box, también denominado de Greenhouse-Geisser) y otro más liberal ( ε˜ , de Huynh y Feldt). El estadístico ε (épsilon) expresa en qué medida se apartan los datos del requisito de esfericidad. A mayor valor de ε, los datos se apartan menos del modelo teórico (de la condición de esfericidad) . Estos ajustes son de cálculo laborioso 8 pero están programados en programas de ordenador como el SPSS. Al menos conviene conocer a) cómo se utilizan estos coeficientes y b) cómo proceder en la práctica habitual cuando no disponemos de alguna de alguna de las modalidades del coeficiente ε. a) Cómo utilizar el coeficiente ε El valor de ε es siempre inferior a la unidad; cuando ε = 1, la esfericidad es perfecta. Se trata de un coeficiente por el que multiplicamos los grados de libertad de las dos varianzas que contrastamos; los grados de libertad quedan así reducidos y cuesta más rechazar la Hipótesis Nula. Si tenemos que, por ejemplo, ε = .60, los grados de libertad iniciales, 5 y 15, se convierten en: 5 (.60) = 3 15 (.60) = 9 Los grados de libertad son menos y consecuentemente necesitamos un valor mayor de F para poder rechazar la Hipótesis Nula. b) Cómo proceder en la práctica habitual Lo más seguro es suponer que no se cumple la condición de esfericidad y proceder teniendo en cuenta estas cautelas: 1º La práctica más segura es utilizar como grados de libertad 1 y N -1; si con estos grados de libertad el resultado es significativo, ciertamente lo es y podemos rechazar la Hipótesis Nula. Con frecuencia, y en resultados muy claros, superamos con creces los valores que vienen en las tablas. 2º Aun así éste (grados de libertad 1 y N-1) es un criterio muy conservador y podemos aceptar como no significativos resultados resultados que sí lo son (nos puede dar falsos negativos). Si el resultado es significativo con los grados de libertad convencionales, convencionales, (c-1) o (f-1) ( f-1) y (c-1)(f-1), pero no lo es con 1 y N -1, es entonces cuando deberíamos aplicar aplicar uno de estos dos ajustes (programados en el SPSS) (Girden, 1992:21): Si ε > .75: ε˜ (de Huynh y Feldt, el ajuste más liberal) Si ε < .75 (o si no sabemos nada sobre ε): εˆ (de Box o Greenhouse-Geisser, el ajuste más conservador)
8 Pueden verse las fórmulas en diversos autores (por ejemplo, Girden, 1992:19; Kirk: 1995:281; Ximénez y San Martín, 2000:42); Kirk es el que expone de manera más sencilla cómo calcular ε a partir de la matriz de covarianzas (también nos lo da el SPSS). Ambos autores repiten la recomendación de utilizar como grados de libertad 1 y N-1 como medida de seguridad, aunque esta recomendación puede resultar muy conservadora. Una explicación de estos coeficientes puede verse también en Llobell, Frías y García (1996:158) y en García, Frías y Llobell (1999). Análisis de varianza para muestras relacionadas
10
4. Contrastes posteriores
Si nos interesan los contrastes posteriores, suele recomendarse el contraste de Tukey 9; una propuesta más segura (sobre todo con muestras pequeñas y cuando no se cumple la condición de esfericidad) que vemos recomendada 10 son los contrastes de Bonferroni (o Dunn-Bonferroni)11. Frecuentemente cuando tenemos muestras relacionadas lo que más nos puede interesar son los coeficientes a) de asociación ( η o más habitualmente habitualmente η2) y b) de fiabilidad expuestos más adelante. En este ejemplo no tiene interés comprobar entre qué profesores hay diferencias significativas, posiblemente incluso aun cuando la razón F de los profesores fuera significativa tampoco tendría especial interés; en otros planteamientos sí puede interesar ver qué columnas o condiciones difieren entre sí. 5. Análisis complementarios: los coeficientes de asociación y de fiabilidad
Como en planeamientos semejantes, semejantes, la razón F (como la t de Student) nos remiten a una probabilidad probabilidad de ocurrencia, pero no a una magnitud . Hay dos cálculos complementarios de interés, a) coeficientes de asociación, como en otros modelos de análisis de varianza y b) coeficientes de fiabilidad más propios de este modelo de análisis de varianza para muestras relacionadas. 5.1. Coeficientes de asociación (
2
y
2 parcial)
Como en otros planteamientos de análisis de varianza, un coeficiente muy utilizado es el coeficiente eta (η); es un coeficiente de asociación válido cuando una variable es categórica, no continua (como son los profesores o columnas en este ejemplo). También, y como en otros modelos de análisis de varianza, se utiliza ω2, pero η2 (o η) es de comprensión más intuitiva (una proporción) que ω2 y más sencillo de cálcu lo12. Una razón F muy significativa, muy probable con muestras grandes, nos da seguridad para concluir que hay diferencias, pero no dice nada sobre la relevancia o magnitud de estas diferencias; ésta es la información que nos dan estos coeficientes, y en este sentido (expresan una magnitud, no una probabilidad) se trata de un tamaño del efecto que permite completar la conclusión alcanzada con la razón F propia del análisis de varianza. Como en coeficientes análogos (como r) η elevada al cuadrado indica la proporción de varianza en la variable continua (las calificaciones de los alumnos en este ejemplo) atribuible a diferencias en la variable categórica (diferencias entre los profesores en este caso). En el caso del análisis de varianza para muestras independientes tenemos un único coeficiente η, en el caso de muestras relacionadas tenemos dos, uno corresponde a las columnas y otro a las filas; en cada caso dividimos cada suma de cuadrados por la suma de cuadrados total (fórmulas [1] y [2]). 9 El SPSS nos da estos contrastes posteriores (Tuckey y Bonferroni)). 10 Como Toothaker y Miller (1996:557-558), Girden (1992:29), Ximénez y San Martín (2000:49). 11 En los contrastes de Bonferroni se utiliza la t de Student convencional (para muestras relacionadas en este caso), pero con un nivel de confianza más estricto; el nivel de confianza adoptado (por lo general .05) se divide por el número de comparaciones previstas; si nuestro nivel de confianza es α = .05 (lo habitual) y vamos a hacer tres comparaciones, para rechazar la hipótesis nula a este nivel (α = .05) debemos obtener una probabilidad de p = .05/3 = .0167. Aunque los contrastes de Bonferroni suelen ser valorados como excesivamente conservadores ( Jaccard, 1998; Perneger, 1998), sí
parecen más aconsejables en el caso de medidas repetidas.
12 Las fórmulas de ω2 pueden verse en muchos textos, como Ximénez y San Martín (2000:46). Análisis de varianza para muestras relacionadas
11
SC columnas
ηcolumnas =
[1]
SC total
SC filas
ηfilas =
[2]
SC total
En nuestro ejemplo:
ηcolumnas
=
7.18 = .248 y η2 = .06 115.95
ηfilas =
=
84.19 = .726 y η2 = .53 115.95
Fijándonos en η2 vemos que la proporción de varianza en la variable dependiente (las calificaciones) se explica sobre todo (53 %) por diferencias entre los alumnos y apenas )6 %) por las diferencias entre los profesores. Todos estos coeficientes conviene interpretarlos también en términos relativos, comparando unos con otros. (η2 parcial)13 expresa la proporción de varianza de una variable dependiente explicada por la variable independiente manteniendo manteniendo constantes otras fuentes de error; es decir prescindimos de otras fuentes de variabilidad. En la fórmula [1] ( η, no η2; normalmente interesa la [1] que corresponde a la variable independiente) en el denominador en vez de la suma de cuadrados total, tendremos la suma de cuadrados de las columnas más la suma de cuadrados del error (de la interacción) (Rosenthal y Rosnow, 1991:463): Eta cuadrado parcial
η parcial
=
SC columnas SC columnas + SC error
[3]
En este ejemplo, y elevando al cuadrado el coeficiente η, tenemos: 7.18 2 η parcial = = .226 7.18 + 24.58 Las diferencias entre profesores explican el 22.6% de la varianza, si prescindimos de otras fuentes de variabilidad (manteniendo constantes a los alumnos). Si hacemos lo mismo con los alumnos ( filas) tendremos 84.19/(84.19+24.58) = .774; el 77.4% de la varianza queda explicado por diferencias entre los alumnos (manteniendo constantes a los profesores). 5.2. Coeficientes de fiabilidad 5.2.1. Fiabilidad de filas y columnas
Aquí hablamos de fiabilidad en el sentido de consistencia interna; en este ejemplo (profesores evaluando a los mismo alumnos) nos interesa comprobar el grado de consistencia o de homogeneidad (o de acuerdo) de los profesores evaluadores evaluadores (las columnas) al diferenciar a los alumnos (las filas); en otros planteamientos nos interesa sobre todo verificar la consistencia consistencia o grado de acuerdo de las filas (sujetos) diferenciando diferenciando a las columnas.
13 Este coeficiente eta cuadrado parcial correspondiente a las columnas (variable independiente) lo calcula el SPSS como parte del output . Análisis de varianza para muestras relacionadas
12
Este cálculo de la fiabilidad o consistencia de las columnas al clasificar o diferenciar a las filas (o las columnas a las filas) suele ser de interés en muchos planteamientos del análisis de varianza para muestras relacionadas; por esta razón dedicamos después a la fiabilidad un apartado adicional. Podríamos definir la fiabilidad en este caso como el grado de acuerdo de la filas diferenciando a las columnas o de las columnas diferenciando diferenciando a las filas. En otros casos lo que interesa es comprobar si las filas (los sujetos) diferencian bien a las columnas . Si por ejemplo los alumnos evaluaran a una serie de profesores (o de experiencias, etc.), nuestra hipótesis sería que los profesores son distintos (o las experiencias son distintas) y que los alumnos son consistentes al diferenciar las columnas. En este caso un resultado esperado hubiera sido el contrario al de este ejemplo: la varianza se debería no a que los alumnos son distintos, sino a que los profesores, o las experiencias, son distintas. distintas. Las fórmulas de los coeficientes de fiabilidad son las siguientes 14: CM filas − CM error r cc = [4] Fiabilidad de las columnas (de todas): CM filas Fiabilidad de una sola columna:
r cc =
CM filas − CM error CM filas + (k − 1)CM error
[5]
Fiabilidad de las filas:
r ff =
CM columnas − CM error CM columnas
[6]
Los símbolos son ya conocidos: r cc = fiabilidad de las columnas; r ff = fiabilidad de las filas; CMf = Cuadrados Medios (o varianza) de las filas; CMc= Cuadrados Medios (o varianza) de las columnas; CMe = Cuadrados Medios (o varianza) del término del error; en este caso de la interacción;
k= número de columnas (profesores en nuestro ejemplo) consistencia interna de las filas [6] Como podemos ver las fórmulas de la fiabilidad o consistencia son iguales a las de las columnas [4], substituyendo CM f por CMc En este ejemplo lo que nos interesa es el cálculo de fiabilidad ( grado de acuerdo) de todos los profesores o columnas; queremos comprobar en qué grado establecen diferencias entre los alumnos de manera consistente. La fiabilidad de los profesores es en este caso: r cc cc =
16.84 − 1.64 = .903 16.84
Esta cuantificación de la consistencia añade información al valor significativo de F, y nos dice que los profesores están muy de acuerdo o son muy consistentes al evaluar a los alumnos (los ordenan de manera muy parecida, aunque pueden ser muy distintos en sus valoraciones absolutas). 14 Tomamos las fórmulas de Guilford y Fruchter (1973) y de Nunnally y Bernstein (1991) pero podemos encontrarlas en muchos textos. Análisis de varianza para muestras relacionadas
13
De manera análoga, y si tiene sentido en el planteamiento de los datos, podemos calcular la fiabilidad de las filas (hasta qué punto son las filas las que discriminan consistentemente a las columnas). Este sería el caso si las filas (alumnos) juzgaran a las columnas (profesores, actividades, etc.). Estos coeficientes son análogos al coeficiente α de Cronbach; en realidad se trata de lo mismo. En un test o escala podemos calcular el coeficiente α mediante el análisis de varianza, poniendo a los ítems en las columnas y a los sujetos en las filas. La pregunta que nos hacemos en el caso de la fiabilidad de un test es semejante: ¿Hasta qué punto los ítems (columnas) son consistentes discriminando, discriminando, diferenciando a los sujetos (filas) en aquello que es común a todos los ítems (lo que estamos midiendo)? Si hay diferencias en los totales (varianza total) esperamos que se deba a que los sujetos medidos son distintos, no a que los ítems son distintos y miden cosas distintas (por eso estos coeficientes se denominan de homogeneidad: de homogeneidad o consistencia interna de las columnas o jueces, en este caso). Si en el ejemplo que nos ha servido para exponer el método suponemos que los cuatro profesores son ítems de una escala, y calculamos el coeficiente α de Cronbach con la fórmula habitual, llegaremos al mismo resultado. Esta relación entre fiabilidad y análisis de varianza la explicamos con más detalle en el apartado siguiente. 5.2.2. Relación entre fiabilidad (consistencia (consistencia interna) y análisis de varianza para muestras relacionadas.
Explicamos con más detalle esta relación por el interés que tiene la fiabilidad tanto en psicometría (fiabilidad de los tests) como en muchos planteamientos experimentales: nos puede interesar verificar la consistencia o fiabilidad de una serie de jueces cuando evalúan una serie de sujetos u objetos. Posiblemente la fiabilidad, en su sentido más habitual consistencia interna referidos a tests y escalas) se entiende mejor a través del (coeficientes (coeficientes de consistencia análisis de varianza. Para entender el concepto de fiabilidad en este contexto es útil la analogía con el concepto de la unanimidad de unos jueces evaluando (o con más propiedad ordenando o clasificando de más a menos…) a una serie de sujetos. Para ordenar o diferenciar bien bien hace falta:
1º Que los jueces sean coherentes entre sí, es decir, tengan el mismo criterio, se fijen en lo mismo, estén básicamente de acuerdo… 2º Que los sujetos sean distintos según el criterio compartido por los jueces… (se ordena mejor a los muy diferentes) Vamos a pensar en dos situaciones distintas. Situación 1ª
Los jueces son los ítems de un test (y aquí está la analogía, en pensar que los ítems van a juzgar a una serie de sujetos): todos los ítems-jueces participan del mismo criterio (es decir miden lo mismo), y tenemos este resultado (tabla 4):
Análisis de varianza para muestras relacionadas
14
sujetos
1 2 3 4 5 6 medias (y σ ) de los ítems (columnas)
1º 2 1 3 4 5 6 3.5 1.707
2º 2 1 4 3 5 6 3.5 1.707
ítems
3º 1 2 4 3 5 6 3.5 1.707
4º 2 1 3 4 5 6 3.5 1.707
5º 2 1 3 4 5 6 3.5 1.707
6º 1 2 4 3 5 6 3.5 1.707
medias de los sujetos (filas)
1.67 1.33 3.50 3.50 5.00 6.00
Tabla 4 Qué vemos en estos resultados: a) Las medias de los ítems (columnas) son semejantes (idénticas en este caso); b) Las medias de los sujetos (filas) son muy distintas. Además vemos que las correlaciones entre los ítems-jueces son altas o al menos claras: coinciden en asignar puntuaciones altas o bajas a los mismos sujetos (los sujetos 1 y 2 puntúan bajo en todos los ítems, los sujetos 3 y 4 puntúan en el centro de la escala en todos los ítems, y los sujetos 5 y 6 puntúan alto en todos los ítems). Es claro que sin un suficiente grado de acuerdo en los jueces o sin suficientes diferencias entre los sujetos, no se darían estas relaciones. Los coeficientes de fiabilidad vienen a expresar el grado de relación global entre los jueces (por eso se denominan de consistencia consistencia interna… entre los ítems o jueces). Es más, sin diferencias entre los evaluados no se puede comprobar empíricamente (mediante coeficientes de correlación) que los jueces miden lo mismo. Conclusión: los ítems (que son los jueces…) tienen un alto de acuerdo ordenando o diferenciando a los sujetos, estableciendo diferencias con el mismo criterio; las columnas (ítems) son fiables cuando clasifican a las filas. De este grado de acuerdo (comprobado) deducimos que miden lo mismo. Aunque refiriéndonos a los ítems de tests y escalas, de la
mera relación entre los ítems (que si es alta desembocará en un coeficiente de fiabilidad alto) no podemos sin más concluir que los ítems miden lo mismo (hacen falta consideraciones conceptuales sobre la formulación de los ítems; los sujetos pueden quedar ordenados de manera semejante en todos los ítems y a pesar de eso es posible que las formulaciones de los ítems no reflejen con nitidez un mismo rasgo bien definido). Esta suficiente grado de acuerdo de los ítems (expresión un tanto impropia tratándose de ítems) es lo que cuantificamos mediante el coeficiente α de Cronbach, pero podemos llegar al mismo resultado con los coeficientes ya vistos y que son posteriores al análisis de varianza. Lo que sucede es que si lo que queremos es calcular la fiabilidad de un test, las fórmulas habituales de la fiabilidad son más cómodas que el análisis de varianza. Situación 2ª
Los jueces son unos sujetos que con idéntico criterio (utilidad, eficacia, etc.) valoran una serie de ítems: métodos, actividades, actividades, profesores, etc. Tenemos este resultado hipotético (tabla 5):
Análisis de varianza para muestras relacionadas
15
sujetos
1 2 3 4 5 6 medias (y σ ) de los ítems (columnas)
1º 2 1 2 2 1 1 1.50 .50
2º 6 6 6 5 5 6 5.67 .47
3º 4 3 4 3 4 4 3.67 .47
ítems
4º 4 4 3 4 5 3 4.00 .63
5º 6 6 6 6 6 6 6.00 .00
6º 1 2 1 1 1 2 1.33 .47
medias de los sujetos (filas)
3.83 3.67 3.67 3.50 3.67 3.67
Tabla 5 Esta situación ejemplifica un modelo potencialmente muy útil de investigación mediante el análisis de varianza para muestras relacionadas. Qué vemos ahora: a) Las medias de los sujetos son muy parecidas unas a otras, apenas hay diferencias; b) Las medias de los ítems son muy desiguales; Conclusión: tenemos algo parecido a la tabla anterior [4], pero al revés: ahora son los sujetos quienes muestran un gran acuerdo en cómo valoran los ítems (actividades, experiencias, profesores, etc.). Las medias de los sujetos son muy parecidas, pero las de los ítems son muy distintas, y son los ítems los que quedan ordenados en una jerarquía clara. Ahora el concepto de fiabilidad , de consistencia interna, lo aplicamos a los sujetos. En la primera situación los ítems (las columnas) ordenan, clasifican, etc., a los sujetos (filas) de manera consistente; en la segunda situación son los sujetos (filas) quienes ordenan a las columnas, valoran las filas con bastante unanimidad en el criterio establecido (eficacia, agrado, etc.). Los coeficientes de fiabilidad (homogeneidad, consistencia interna) expresan en qué grado las columnas (ítems de un test) miden lo mismo15 y diferencian a los sujetos que son distintos en aquello que tienen en común los ítems (fórmulas del coeficiente α de Cronbach, coeficientes de Kuder-Richardson). Y a la inversa: se puede calcular la fiabilidad de los sujetos (las filas) cuando ordenan los ítems (las columnas). Estos coeficientes de fiabilidad, de las filas ordenando a las columnas y de las columnas ordenando a las filas, son los que calculamos a partir de los resultados del análisis de varianza para muestras relacionadas (relacionadas porque los sujetos son los mismos en todas las condiciones…o en todos los ítems). En cualquier caso la fiabilidad tiende a ser alta: a) Cuando los jueces son consistentes, participan del mismo criterio; b) Cuando los jueces son muchos (se minimizan las inconsistencias) inconsistencias) c) Cuando los sujetos (u objetos) juzgados son muy diferentes entre sí (es más fácil ordenarlos).
15 La expresión usual miden lo mismo no es exacta; lo que cuantifican estos coeficientes es en qué grado los ítems están relacionados, y esta relación inter-ítem nos confirma (o deducimos) que de alguna manera miden lo mismo, expresan el mismo rasgo. También puede suceder que tengamos una fiabilidad alta con ítems que claramente no miden el mismo rasgo (con criterios conceptuales) pero que están claramente relacionados entre sí; siempre es necesaria una evaluación cualitativa. Análisis de varianza para muestras relacionadas
16
Esta grado de acuerdo o consistencia interna se manifiesta en las correlaciones entre los jueces (como entre los ítems de un test); la correlación implica diferencias sistemáticas sistemáticas en los sujetos u objetos evaluados. Resumiendo: fiabilidad fiabilidad y análisis de varianza
Pregunta común a estos planteamientos: ¿De dónde vienen las diferencias (la varianza total)? ¿De que las filas son distintas o de que las columnas son distintas? Una solución directa nos la da el análisis de varianza para muestras relacionadas, que divide (analiza) la varianza total en tres varianzas parciales: 1ª Varianza debida a que las filas son distintas… 2ª Varianza debida a que las columnas son distintas… 3ª Varianza aleatoria, debida a la interacción fila-columna (no debida a que las columnas o las filas son sistemáticamente distintas). Resultados del análisis varianza:
1. Nos dice si las varianzas 1ª y/o 2ª son significativamente distintas de la varianza 3ª (superiores a lo que consideramos aleatorio). 2. Podemos calcular el coeficiente de fiabilidad de las filas cuando establecen diferencias entre las columnas y el coeficiente de fiabilidad de las columnas cuando establecen diferencias entre las filas. Estos coeficientes son idénticos (el mismo resultado) al coeficiente α de Cronbach. 5.2.3. Cuando las dos razones F (de las filas y de las columnas) son estadísticamente significativas
En cualquiera de estos planteamientos planteamientos podemos encontramos con que las dos razones F (de las filas y de las columnas) son significativas (superiores a lo que podemos juzgar como aleatorio), aunque por lo general (no siempre), cuando tenemos este resultado, una de las razones F y uno de los coeficientes de fiabilidad suelen ser apreciablemente mayores que los otros. Aun así este resultado puede desconcertar: ¿Pueden simultáneamente clasificar, diferenciar, diferenciar, ordenar… las filas a las columnas y las columnas a las filas?
Vamos a pensar en una situación de fácil comprensión: los alumnos de una clase (filas) evalúan a sus profesores (columnas). Un resultado ideal sería que las diferencias provengan sobre todo de que los profesores son distintos (y son así vistos por los alumnos) y no de que los alumnos son distintos en su manera de evaluar. En este caso tendríamos la F de las columnas (profesores) significativa y la fiabilidad de las filas (alumnos) alta: los alumnos distinguen bien unos profesores de otros 16. Imaginemos que las dos razones F son significativas: los profesores son distintos y también los alumnos son distintos en su forma de evaluar, en ambos casos sus varianzas son superiores a lo que podemos encontrar por azar. Este resultado posible ¿Implica contradicción? contradicción? ¿Es interpretable?
16 En este caso (cuestionario de evaluación del profesorado) habría que calcular la fiabilidad de cada ítem; también se podría calcular la fiabilidad de subconjuntos de ítems homogéneos (que describen el mismo rasgo) sumados en un total, como si se tratara de un test convencional. Análisis de varianza para muestras relacionadas
17
Un resultado así es posible, no es contradictorio y es interpretable. Lo que sucede es que los resultados que obtenemos y las interpretaciones que hacemos no pueden encerrarse en un sí o un no, en un blanco o negro. Es fácil verlo con un ejemplo muy simplificado. simplificado. Vamos a suponer que dos alumnos evalúan a dos profesores en una escala de 1 a 6 en un rasgo cualquiera. Un profesor es mejor que el otro a juicio de los dos alumnos, pero los dos alumnos tienen un modo distinto de evaluar: Profesor 1 Profesor 2 Alumno benévolo: 6 5 Alumno crítico: 2 1 Alumno benévolo. Un alumno califica al mejor profesor con un 6 y al peor profesor con un 5. Aunque distingue entre los dos profesores, este alumno tiende a juzgar con benevolencia; benevolencia; le gustan los dos profesores, al menos los evalúa bien, aunque uno le gusta más que el otro. Alumno crítico. El otro alumno califica al mismo mejor profesor con un 2 y al otro profesor, que a su juicio es también peor, con un 1. Estima que un profesor es mejor que el otro, pero califica bajo a los dos; no le gusta ninguno de los dos, pero considera que uno es peor que el otro. En un caso así (en un ejemplo real tendríamos más alumnos) las dos razones F van a ser significativas: los alumnos son consistentes cuando ordenan a los profesores según su calidad (por eso la F de los profesores es significativa), pero ellos también son sistemáticamente distintos en su forma de evaluar. La fiabilidad de los alumnos sería alta en este caso porque coinciden en señalar cuáles son los mejores y los peores profesores según su juicio, aunque no coincidan en las valoraciones absolutas (tienden a coincidir en el orden)17 . Cuando en un cierto grado se dan estas diferencias entre los alumnos, su razón F es significativa, es decir, la diversidad entre los alumnos (su varianza) es superior a lo meramente aleatorio: las diferencias entre los alumnos no son casuales, es que evalúan de distinta manera. Pero esto no quiere decir que no diferencien adecuadamente a unos profesores de otros: coinciden en el orden en que sitúan a sus profesores; en identificar al menos, según su propio juicio, a los mejores y peores profesores. Esto es lo que significa una fiabilidad alta de los alumnos: coincidencia básica en diferenciar a unos profesores de otros; en este sentido decimos que los alumnos son unánimes, aunque naturalmente esta unanimidad no lo es en sentido propio (la fiabilidad admite grados; en un caso como éste, si la fiabilidad es alta, diríamos que hay suficiente convergencia o grado de acuerdo en sus juicios). Este ejemplo es aplicable a cualquier otra situación, y algo análogo sucede con la fiabilidad de los tests (y exámenes). Los ítems, cuando se suman en una puntuación total, pueden diferenciar adecuadamente a los sujetos; unos tienden a puntuar sistemáticamente más alto en todos ellos, otros más bajo, etc.; pero esto no quiere decir que los ítems sean de parecida dificultad . Una fiabilidad alta en un test querría decir que los ítems están básicamente de acuerdo (como si fueran jueces) cuando diferencian ( ordenan, con más propiedad) a unos sujetos de otros. En el apartado siguiente aclaramos más, con un ejemplo, la relación entre el análisis de varianza y la fiabilidad de tests y escalas.
17 Un coeficiente de correlación alto entre dos elementos quiere decir que los sujetos los ordenan de manera semejante, pero no que tengan valores absolutos semejantes. Análisis de varianza para muestras relacionadas
18
5.2.4. Análisis de varianza para muestras relacionadas y el coeficiente
de Cronbach
Es importante ver la relación existente entre estos coeficientes de fiabilidad derivados directamente del análisis de varianza, y el más conocido coeficiente de consistencia consistencia interna α de Cronbach, que utilizamos habitualmente para calcular la fiabilidad de tests y escalas. Se trata de lo mismo, aunque cuando nos referimos a la fiabilidad de los tests lo explicamos desde otra perspectiva 18. Qué significa la fiabilidad convencional de tests y escalas también podemos entenderlo a través del análisis de varianza como ya ha quedado explicado anteriormente al inicio de este apartado19; en la situación 1ª veíamos cómo los ítems de un supuesto test eran consistentes cuando diferenciaban a los sujetos. Ahora lo vamos a ver con un ejemplo. Los datos son ficticios, pero nos permiten visualizar cómo ambos procedimientos nos llevan al mismo resultado. En este ejemplo (tabla 6) tenemos las respuestas de cuatro sujetos a un test compuesto por seis ítems. sujetos a c d media desviación
nº 1 6 b 3 4 4.75 1.29
nº 2 6 6 3 3 4.25 1.29
ítems nº 3 nº 4 5 4 5 5 2 3 2 1 3.50 3.00 1.50 1.225
nº 5 6 4 4 1 3.50 1.80
nº 6 6 3 4 2 4.25 1.48
total 33 5 19 13 23.25 7.758
28
Tabla 6 Estos son los datos que solemos tener cuando analizamos un test: el total de cada sujeto y la media y desviación típica de cada ítem. Vamos a calcular en primer lugar el coeficiente α de Cronbach con la fórmula usual: Σσ 2i 1.29 2 +1.292 +1.502 +1.2252 +1.80 2 +1.482 6 k α= ( ) (1(1) ) (1- 2 ) = ( 6 −1 σt 7.7582 k − 1 = (1.2) (1 -
12.509 ) =.95 60.1865
Hacemos ahora, con los mismos datos, un análisis de varianza para muestras relacionadas con estos resultados (tabla 7):
18 Un tratamiento más completo de la fiabilidad de los tests en Morales (2008, capítulo 6). 19 La relación entre fiabilidad y análisis de varianza la puso de relieve ya hace años Hoyt (1941, 1952) y está bien explicada en Rosenthal y Rosnow (1991:55) y en Nunnally y Bernstein (1994:274) Análisis de varianza para muestras relacionadas
19
origen de la variación
Suma de Cuadrados
Ítems Sujetos
8.375 40.125 10.125 58.625
Ítems x sujetos
Total
Grados de libertad
5 3 15 23 Tabla 7
Cuadrados medios
F
1.675 13.375 .675
2.482 p>.05 19.81 p <.05
La varianza significativa es la que corresponde a los sujetos; son los sujetos los que difieren entre sí y no los ítems entre sí; ahora bien, si los sujetos difieren entre sí es porque los ítems establecen diferencias entre los sujetos como si se tratara de jueces cuyas opiniones coinciden (en este ejemplo, tabla 6, puede verse a simple vista). Ya sabemos cómo cuantificar esta fiabilidad de los ítems (de las columnas en este caso, fórmula [4]): CMfilas - CMerror 13.375 − .675 r cc = = .95 cc = CM filas 13.375 Hemos llegado al mismo valor del coeficiente α de Cronbach. Esta fiabilidad de los ítems es lo que denominamos consistencia consistencia interna. Si los ítems fueran unos jueces diríamos que los ítems juzgan de manera semejante a los sujetos; de esta consistencia interna deduciremos que miden lo mismo, aunque en esta deducción puede haber otras fuentes de error en las que no entramos aquí 20. Habitualmente calculamos la fiabilidad de los tests y escalas mediante el cálculo directo del coeficiente α de Cronbach, pero posiblemente es desde el análisis de varianza como se entiende mejor qué es lo que cuantifican estos coeficientes. 6. Un ejemplo de análisis de varianza para muestras relacionadas 6.1. Análisis de varianza
En el ejemplo que nos ha servido para introducir el análisis de varianza para muestras relacionadas (o emparejadas) teníamos en las columnas (variable independiente) cuatro profesores que han calificado a los mismos alumnos ( filas). El interés en este ejemplo era verificar que no había diferencias significativas entre los profesores y ver la fiabilidad o grado de acuerdo de los profesores al evaluar a los mismos alumnos. Ahora presentamos otro ejemplo en el que el interés va en otra dirección: verificar las diferencias entre las columnas (condiciones experimentales) y la fiabilidad o grado de acuerdo de los sujetos ( filas) diferenciando unas columnas de otras. Este ejemplo es semejante al presentado en la situación 1 (apartado 5.2.2) y lo exponemos con cierto detalle y con un caso real porque puede sugerir otros planteamientos parecidos. En una residencia de estudiantes (chicas) se pregunta a 10 residentes por sus preferencias a la hora de realizar 7 tareas distintas ( ayudar en la limpieza de los baños, la sala de estar, sala de estudio, atender el teléfono, barrer el pasillo, ayudar en lavadero y en la cocina ).
20 Esta consistencia interna es puramente empírica; de hecho los ítems ordenan de manera semejante a los sujetos, pero esto no quiere decir necesariamente que conceptualmente midan un mismo rasgo bien definido; un grupo de niños de diversas edades pueden quedar ordenados de manera semejante en peso y altura, sin que esto quiera decir que peso y altura midan lo mismo. Análisis de varianza para muestras relacionadas
20
Las respuestas valorativas van desde 1 (no me gusta nada) a 6 (me gusta mucho)21. En la tabla 8 figuran las respuestas de las residentes, la media y desviación típica (de la muestra, dividiendo por N) de cada columna o tarea y el total de cada alumna al sumar todas sus respuestas. residentes
1 2 3 4 5 6 7 8 9 10
1. Baño
2. Sala de
3. Sala de estudio
2 2 1 2 2 1 2 2 4 2 2 .775
3 3 1 2 1 1 2 2 3 2 2 .775
4. Teléfono
5. Pasillo
6.
7. Cocina
Total filas
Lavadero
5 5 3 2 6 1 2 6 5 5 4 4 3 2 4 4 5 2 4 3 1 2 3 2 3 5 4 3 4 2 6 3 5 6 2 6 4 5 4 4 M columnas 4.1 3.5 3.6 3.7 σ columnas 1.375 1.113 1.345 1.345 Tabla 8 La tabla de resultados del análisis de varianza (EXCEL) la tenemos en la tabla 9. origen de la variación filas (residentes)
columnas (tareas)
interacción (error)
total
1 1 3 1 3 2 1 1 1 1 1.5 .806
estar
21 21 23 18 20 12 20 20 27 22
denominador
CM = SC/gl (varianza)
F
p
F crítico (α = .05)
18.629
9
2.070
1.401
0.211
2.059
65.086
6
10.848
7.343
0.000
2.272
79.771 163.486
54 69
1.477
SC
gl
numerador
Tabla 9 Observamos que: La F de las filas no es estadísticamente significativa; las diferencias entre las alumnas están dentro de lo aleatorio. Aquí conviene tener claro en qué no difieren las alumnas: no difieren significativamente en sus totales (si sumamos todas sus respuestas) o en sus medias. A simple vista se detectan diferencias que parecen grandes (la más baja es 12 y la más alta es 27) pero con tan pocos sujetos cualquier diferencia entre dos sujetos tiene una probabilidad de ocurrir aleatoriamente mayor del 5%. En cualquier caso esta F de las filas no tiene aquí interés interpretativo; nuestro interés está en las columnas. La F de las columnas sí es estadísticamente significativa; entre las tareas hay diferencias superiores a lo que podemos esperar por azar. Tenemos el problema de la condición de esfericidad que no hemos comprobado (sí se comprueba en el SPSS) y que no suele cumplirse. En este caso ya hemos visto que los grados 21 De un trabajo de Sara Lozano, alumna de 2º de Psicopedagogía, curso 1998-1999 Análisis de varianza para muestras relacionadas
21
de libertad más seguros y conservadores al consultar las tablas de la razón F son 1 y N-1 (en este caso 1 y 9). Con un nivel de confianza de α = .05 y grados de libertad 1 y 9 vemos en las tablas que el valor de F que necesitamos necesitamos es de 5.12 y el nuestro (7.343) es superior por lo que podemos rechazar la Hipótesis Nula y afirmar que existen diferencias significativas entre las tareas. 6.2. Coeficientes de fiabilidad y
2
Si las tareas difieren entre sí es porque hay un cierto grado de acuerdo entre las residentes al valorar de distinta manera las tareas que tienen que compartir; este grado de acuerdo es la fiabilidad de las filas (fórmula [6]): CM columnas − CM error 10.848 − 1.477 = .86 r ff = = CM columnas 10.848 Podemos afirmar que el grado de acuerdo de las residentes al diferenciar unas tareas de otras es apreciablemente apreciablemente grande. La fiabilidad de las columnas (tareas) diferenciando a las filas (sujetos) no tiene especial interés pero es ilustrativo calcular este coeficiente (fórmula [4]) CM filas − CM error 2.070 − 1.477 = .29 r cc = = CM filas 2.070 Obviamente es un coeficiente muy bajo; lo que tiene interés es caer en la cuenta de cuál hubiera sido nuestra interpretación si la fiabilidad de las columnas al diferenciar a las filas hubiera sido alta. Este coeficiente es el mismo coeficiente α de Cronbach; si hubiese sido relativamente alto estaríamos ante un test o escala de actitud de servicio o de gusto por este tipo de tareas en general, pero vemos que no es éste el caso. Los coeficientes η2 son coherentes con los resultados vistos (fórmulas [1] y [2] eliminando la raíz cuadrada): Proporción de varianza en la variable dependiente (respuestas de los sujetos) explicada por diferencias: entre las tareas:
2 η columnas
entre los sujetos:
2 η filas
=
=
SC columnas SC total
SC filas SC total
=
=
65.086 = .398 163.486
65.086 = .114 163.486
Casi el 40% de la varianza está explicado por diferencias entre las tareas y poco más del 11 % por diferencias entre los sujetos. El coeficiente η2 parcial (fórmula [3] sin la raíz cuadrada) es igual a .449: aproximadamente un 45% de la varianza (diferencias en las respuestas) queda explicado por las diferencias entre tareas teniendo en cuenta solamente estas diferencias entre tareas y prescindiendo de los errores de medición (que en este caso equivalen a las peculiaridades peculiaridades individuales manifestadas en las respuestas). 6.3. Contrastes posteriores y representación gráfica
En este caso hemos hecho los contrastes posteriores (de Tuckey, con el SPSS). Las cuatro tareas con medias mayores ( teléfono, cocina, lavadero y pasillo ) no se diferencian significativamente entre sí, pero estas cuatro tareas sí tienen diferencias estadísticamente Análisis de varianza para muestras relacionadas
22
significativas con las tres tareas con medias más bajas ( sala de estar, sala de estudio y baño ) que entre sí tampoco difieren. Tenemos dos bloques de tareas claramente diferenciados; con más sujetos sí podrían haber aparecido más diferencias significativas. Una manera de presentar estos resultados es como aparecen en la figura 1: se ponen por orden las tareas y sus medias y se subrayan las que no difieren entre sí. 4. Teléfono
4.1
7. Cocina
3.7
6. Lavadero
3.6
5. Pasillo
3.5
2. Sala de estar
2.0
3. Sala de estudio
2.0
1.Baño
1.5
Figura 1 Aunque no se hagan los contrastes posteriores sí es útil presentar alguna figura semejante en la que aparezcan las tareas ordenadas según sus medias. La razón F de las tareas que es estadísticamente significativa y la alta fiabilidad o grado de acuerdo de los sujetos diferenciando unas tareas de otras ya es suficiente para hacer una interpretación de los resultados. En este ejemplo los sujetos han valorado el gusto por una serie de tareas; es fácil intuir la utilidad de este modelo de análisis de varianza; en vez de tareas podrían ser otras variables de interés pertenecientes al mismo ámbito conceptual para que tenga sentido la comparación o establecer una jerarquía (experiencias, valores, motivaciones, etc.). También puede tratarse de la misma variable en ocasiones sucesivas o medidas después de pasar por experiencias distintas (en el ejemplo expuesto los sujetos se limitan a responder a un cuestionario, no después de realizar una determinada tarea). En la introducción ya se han expuesto diversos planteamientos susceptibles de ser analizados con este modelo de análisis de varianza. 7. Análisis de varianza para muestras relacionadas en EXCEL y en el SPSS EXCEL. Este análisis de varianza lo tenemos en Herramientas - Análisis de datos Análisis de varianza de dos factores con una muestra por grupo.
-
Nos da solamente los datos descriptivos y la tabla de resultados; no incluye contrastes posteriores, ni los otros coeficientes (fiabilidad, η2) ya expuestos. Una cautela. Al señalar los datos (dispuestos en columnas) hay que seleccionar seleccionar también una columna adicional a la izquierda de la tabla (que puede estar en blanco) porque esta primera columna se interpreta como rótulos (que en las filas no suelen interesar). SPSS. En el SPSS este modelo de análisis de varianza se encuentra en analizar y allí en modelo lineal general , en medidas repetidas. Este análisis de varianza es más complejo y hay que acudir a manuales específicos (como Pardo Merino y Ruíz Díaz, 2005; Ximénez y San Martín (2000). El SPSS no presenta la tabla de resultados convencional convencional por lo que, si interesa presentar esta tabla de resultados, se puede hacer fácilmente fácilmente con EXCEL. El SPSS calcula los contrastes posteriores pero no los coeficientes de fiabilidad (muy sencillos, como hemos visto, a partir de la información de la tabla de resultados). 8. El análisis de varianza para muestras relacionadas en Internet.
En Internet disponemos al menos de este programa: ICHARD, VASSAR STATS: Web Site for Statistical Computation,Vassar LOWRY, R ICHARD College, Poughkeepsie, NY, USA; One-Way Analysis of Variance for Independent or Correlated Samples http://fac http://faculty.vassar.ed ulty.vassar.edu/lowry/anova1 u/lowry/anova1u.html u.html;; Análisis de varianza para muestras relacionadas
23
Está en la misma página en la que está el análisis de varianza para muestras independientes. Tiene allí mismo una versión en español. Hay que introducir (o pegar ) todos los datos. En el cuadro de diálogo hay que indicar el número de muestras (de columnas ) y escoger Correlated samples. Este programa tiene los contrastes posteriores de Tukey (la diferencia mínima necesaria para afirmar que es estadísticamente significativa); en este sentido este programa es preferible a EXCEL, al menos si interesan los contrastes posteriores. No calcula los coeficientes de fiabilidad, pero con la fórmula a la vista son muy sencillos con una calculadora. 9. Referencias bibliográficas
DOWNIE, N.M. y HEATH, R.W., (1971). Métodos estadísticos aplicados. Madrid: Ediciones del Castillo GARCÍA PÉREZ, J.F.; FRÍAS NAVARRO, M.D. y LLOBELL , J. PASCUAL (1999). Los diseños de la experimentación experimental, comprobación de hipótesis . Valencia: C.S.V. GIRDEN, ELLEN R., (1992). Anova repeated measures. Quantitative Applications Applications in the Social Sciences. Newbury Park & London: Sage GUILFORD, J. P. y FRUCHTER , B., (1984). Estadística aplicada a la psicología y la educación, México: McGraw-Hill. [En Inglés: Fundamental Statistics in Psychology and Education, 1973. New York: McGraw-Hill]. HOYT, C.J., (1941). Test Reliability Estimated by Analysis of Variance. Psychometrika, 3, 153-160. HOYT, C.J., (1952). Estimation of Test Reliability for Un-Restricted Item Scoring Methods. Educational and Psychological Measurement, 12, 752-758. JACCARD, JAMES (1998). Interaction Effects in Factorial Analysis of Variance, Sage University Paper Series on Quantitative Applications in the Social Sciences. Thousand Oaks: Sage K IRK IRK , R OGER OGER E., (1995). Experimental Design, Procedures for the Behavioral Sciences. Boston: Brooks/Cole. LLOVEL, J. PASCUAL; FRÍAS, DOLORES y GARCÍA, FERNANDO (1996). Manual de psicología experimental . Barcelona: Ariel. MORALES VALLEJO , PEDRO (2008). Estadística aplicada a las Ciencias Sociales. Madrid: Universidad Pontificia Comillas. NUNNALLY, JUM C. and BERNSTEIN, IRA H. (1994). Psychometric Theory, 3rd. ed., New York, McGraw-Hill. UÍZ DÍAZ, M.A. (2005). Análisis de datos con SPSS 13 Base . Madrid: PARDO MERINO, A. y R UÍZ McGraw Hill. PERNEGER , THOMAS V. (1998). What's wrong with Bonferroni adjustments. British Medical Journal 1998; 316:1236-1238 http://www.bmj.com/cgi/content/full/316/7139/1236 R OSENTHAL OSENTHAL, R OBERT OBERT and R OSNOW OSNOW, R ALPH ALPH L. (1991). Essentials of Behavioral Research, Methods and Data Analysis. Boston: McGraw-Hill.
Análisis de varianza para muestras relacionadas
24
Introductory Statistics for the Behavioral TOOTHAKER , LARRY E. and MILLER , LISA (1995), Introductory Sciences, 2nd edit., Pacific Grove, Brooks/Cole, 706pp. WADDINGTON, CHRISTOPHER (2000). Estudio comparativo de diferentes métodos de evaluación de traducción general (Inglés-Español). Madrid: Universidad Pontificia Comillas. XIMÉNEZ, CARMEN y SAN MARTÍN, R AFAEL AFAEL (2000). Análisis de Varianza con medidas repetidas. Madrid: La Muralla.
Análisis de varianza para muestras relacionadas
Análisis de varianza para verificar tendencias ©Pedro Morales Vallejo Universidad Pontificia Comillas, Madrid Facultad de Ciencias Humanas y Sociales (última revisión 28 de febrero de 2009)
índice 1. Introducción............................. Introducción..................................................... ................................................ ................................................ .................................. ..........
3
2. Verificación de tendencias en muestras independientes ........................................... ...........................................
3
2.1. Análisis de varianza.............................. varianza..................................................... ............................................... ..................................... .............
3
2.2. Cálculo de coeficientes de correlación .................................................. ............................................................. ...........
6
2.3. Cuando los grupos son de distinto tamaño ............................................... ....................................................... ........
7
2.4. Contrastes posteriores entre medias ................................................. ................................................................. ................
8
3. Verificación de tendencias en muestras relacionadas ............................................... ...............................................
9
3.1. Análisis de varianza.............................. varianza..................................................... ............................................... ..................................... .............
9
3.2. Contraste de medias............................... medias....................................................... ................................................ ................................... ........... 11 3.3. ‘Magnitud del cambio’ ( tamaño del efecto ) .............................................. ..................................................... ....... 12 3.4. Análisis correlacionales: relación entre cambio individual y otras variables .. 13 4. Referencias bibliográficas ............................................... ........................................................................ .......................................... ................. 13 Anexo. Tabla de los pesos ( λ) aplicables para verificar tendencias.............................. 14
2
Análisis de varianza para verificar tendencias
3
1. Introducción El análisis de varianza para muestras independientes o para muestras relacionadas nos dice si entre las medias de varias muestras hay diferencias significativas, pero no nos dice si en las medias se observa una tendencia a crecer o decrecer. Es más, al comparar varios grupos podemos encontrarnos con una razón F no significativa que nos dice que no hay diferencias (todas las medias proceden de la misma población) cuando por simple observación de los datos vemos que hay una clara tendencia en las medias, que van siendo progresivamente mayores o menores. Lo mismo puede suceder con las medias de un mismo grupo obtenidas en ocasiones sucesivas: entre las medias puede no haber diferencias significativas, pero sí puede haber una tendencia clara y superior a lo aleatorio a aumentar o disminuir. Siempre que podamos ordenar los grupos con algún criterio (edad, curso, ocasiones sucesivas, etc.) podemos comprobar si se da una tendencia lineal (linear trend) a aumentar o disminuir; también podemos comprobar otras tendencias, pero ahora nos fijamos en las tendencias lineales. Las categorías de clasificación son por lo tanto cuantitativas, de manera que sea posible establecer un orden numérico. El análisis de varianza convencional responde a una hipótesis muy genérica (si los grupos pertenecen o no a la misma población), pero podemos hacer además preguntas más específicas como si se observa o no una tendencia a aumentar o disminuir superior a lo meramente aleatorio. A esta pregunta podemos responder también mediante el análisis de varianza apropiado1.
2. Verificación de tendencias en muestras independientes 2.1. Análisis de varianza Vamos a verlo con un ejemplo 2. Tenemos cinco grupos ordenados de menos a más con un criterio claro, como puede ser la edad. En este ejemplo (datos ficticios, tabla 1) tenemos un total de 20 sujetos (N = 20) con 4 sujetos en cada grupo (k o número de grupos = 5). Tanto en este caso como con muestras relacionadas, la solución tiene dos pasos: 1º Se resuelve el análisis de varianza convencional (en este caso se trata de muestras independientes), 2º Con los datos obtenidos se pasa a un segundo análisis de varianza específico para verificar tendencias (entre los grupos puede no haber diferencias significativas, pero la tendencia a aumentar o disminuir sí puede ser significativa).
1 En el anexo VII mencionamos dos métodos no paramétricos para verificar tendencias en muestras independientes (Jonckheere) y relacionadas (Page). Existe al menos otro método no paramétrico para verificar tendencias cuando n = 1 (prueba de Mann) que puede ser de especial interés para analizar terapias individuales (por ejemplo en psicología clínica y educación especial). 2 El procedimiento que vamos a exponer puede verse también explicado y con ejemplos resueltos en bastantes textos no elementales (como Guilford y Fruchter, 1973; Rosenthal, 1987; Kirk, 1995). A veces se advierten aparentes discrepancias metodológicas en los distintos autores, simplemente porque unos prefieren utilizar como dato la media de cada grupo y otros el total de las puntuaciones de cada grupo.
Análisis de varianza para verificar tendencias
4
N = 20 n=4 k=5 Media = Desviación (σn)= Total =
1º 14 14 11 10 12.25 1.785 49
2º 15 15 12 11 13.25 1.785 53
3º 16 16 13 12 14.25 1.785 57 Tabla 1
4º 17 17 14 13 15.25 1.785 61
5º 18 18 15 14 16.25 1.785 65
Si hacemos un análisis de varianza convencional nos encontramos con estos resultados (tabla 2): origen los grup grupos os entre los dentro de los grupos
Suma de Cuadrados 40 63.75
Grados de Cuadrados Libertad Medios k-1=5-1=4 40/4 40/4 = 10 N-k= 63.75/15 = 4.25 20 - 5 = 15 Tabla 2
F 2.35, .35, p > .05 .05
De esta tabla solamente vamos a utilizar los Cuadrados Medios dentro de los grupos (que es el término del error ) por lo que podemos calcularlos directamente si únicamente nos interesa la tendencia y no nos interesa comprobar si las medias difieren significativamente entre sí: CMdentro =
Σnσ n2 N − k
[1]
En cada grupo multiplicamos el número de sujetos (de cada grupo, k = 4 en este ejemplo) por su varianza (calculada dividiendo por N, no por N-1), sumamos estos productos y los dividimos por los grados de libertad dentro de los grupos (número total de sujetos menos número de grupos). Si hemos calculado las desviaciones dividiendo por N-1 ( σn-1) el denominador de [1] será N. En nuestro ejemplo, como los grupos son del mismo tamaño, podemos simplificar el 2 2 numerador (nΣσ en vez de Σnσ ): Cuadrados Medios dentro =
4(1.7852 +1.785 2 +1.785 2 +1.785 2 +1.7852 ) 20 - 4
= 4.25
Como en casos semejantes (muestras independientes), si calculamos las varianzas de los 2 grupos dividiendo por N-1, los Cuadrados Medios dentro serán Σn σ n-1 /Ν, y si los grupos son 2 de idéntico tamaño n Σ σ n-1 /N. Vemos en la tabla 2 que la razón F no es estadísticamente significativa; para 4 y 15 grados de libertad nos haría falta un valor de F = 3.06 para rechazar (no aceptar) la Hipótesis
Análisis de varianza para verificar tendencias
5
Nula de no diferencia y el que hemos encontrado es F = 2.35; nuestra primera conclusión es que las diferencias entre los grupos están dentro de lo normal. Este resultado contradice aparentemente lo que vemos en los datos (ejemplo ficticio). Observamos que las medias van aumentando progresivamente, cada grupo tiene una media mayor que el anterior. Es más, si calculamos la correlación entre el total (o la media) de cada grupo y el número de orden del grupo (que podríamos substituir por la edad media del grupo, por ejemplo) nos encontramos con una relación perfecta de r = 1 (en este caso N = 5 y grados de libertad igual a N - 2 = 3). Lo que sucede es que en el análisis de varianza que hemos hecho se prescinde del orden y la respuesta que obtenemos es muy genérica ( ¿hay diferencias entre los grupos ?) y realmente no corresponde a nuestra pregunta de interés: si se da o no se da una tendencia, en este caso a aumentar progresivamente. Si ordenamos los grupos de manera diferente, el valor de F será el mismo, pues es independiente del orden. La respuesta a nuestra pregunta (hay o no hay una determinada tendencia) es hacer un análisis de varianza que tiene en cuenta la varianza debida a la hipotética tendencia a aumentar. El procedimiento lo explicamos a partir de los datos de la tabla 3.
Totales T = pesos λ = Tλ =
Grupo 1º 49 -2 -98
Grupo 2º 53 -1 -53
Grupo 3º 57 0 0 Tabla 3
Grupo 4º 61 +1 + 61
Grupo 5º 65 +2 + 130
Σλ2 = 10 ΣTλ = L = 40
Qué hemos hecho: 1º Tomamos como dato inicial los totales de cada grupo (tomados de la tabla 1). Si los grupos son de distinto tamaño, el total de cada grupo será igual a la media del grupo multiplicada por la media armónica del número de sujetos (lo aclaramos más en el apartado 2.3). 2º Asignamos a cada grupo un peso (simbolizado por la letra griega lambda, λ) que expresa nuestra predicción. Nuestra predicción es que las l as medias van de menos a más, por eso los pesos asignados se corresponden con la tendencia que queremos contrastar. La condición para asignar estos pesos es que su suma sea igual a 0. Si nuestra predicción no hubiera sido una tendencia lineal (crecimiento o decrecimiento progresivo) sino una tendencia cuadrática (tendencia primero a aumentar y luego a disminuir, o al revés) nuestros pesos hubieran sido +2, -1, -2, -1, +2. Estas tendencias cuadráticas tienen la forma de ∩ o ∪. Los pesos ( λ) para estos contrastes según las predicciones (lineales, cuadráticas, cúbicas) y según el número de grupos (o número de ocasiones si se trata del mismo grupo) se pueden encontrar en muchos textos (en el anexo ponemos los pesos para los casos más frecuentes (tendencias lineales y cuadráticas, entre tres y seis grupos u ocasiones).
Análisis de varianza para verificar tendencias
6
3º Sumamos los pesos elevados previamente al cuadrado:
Σλ2 = (-2)2 + (-1)2 + (+1)2+ (+2)2 = 10 4º Multiplicamos cada Total por su peso
λ (Tλ)
5º Sumamos estos valores de T λ; designamos esta suma ( ΣTλ) con el símbolo L: L = -98 - 53 + 61 + 130 = 40 6º Calculamos la Suma de Cuadrados correspondiente a la tendencia lineal mediante esta fórmula: SCtendencia =
L2 (n)(Σλ ) 2
[2]
=
40 2 (4)(10)
=
1600 40
= 40
Cuadrados Medios (o varianza correspondiente a la tendencia):
CMtendencia =
SC tendencia
[3]
grados de lib.[= 1]
= 40
En estos contrastes los grados de libertad de la tendencia son siempre igual a 1, por lo que la Suma de Cuadrados es igual a los Cuadrados Medios.
7º Calculamos la razón F dividiendo los Cuadrados Medios de la tendencia lineal por el término del error (Cuadrados Medios dentro de los grupos) calculado antes (tabla 2): F=
40 4.25
= 9.41
En las tablas de la razón F encontramos que para un grado de l ibertad en el numerador y 15 en el denominador (N-k = 20 - 5), este valor corresponde a p <.01 (ó p <.001 si consultamos tablas más completas). Podemos afirmar con mucha seguridad que la tendencia a aumentar que observamos dista de ser casual.
2.2. Cálculo de coeficientes de correlación A partir de los datos ya calculados podemos calcular dos coeficientes de correlación (r de Pearson) entre la variable independiente (como puede ser la edad, o el número asignado a cada grupo) y la variable dependiente (la que hemos medido); estos coeficientes son una estimación del tamaño del efecto que nos permite apreciar y valorar la magnitud de la tendencia (el coeficiente de correlación tiene pleno sentido tratándose precisamente de una tendencia linear). 1º Tomando el grupo como unidad (Rosenthal, 1987:141): r=
SC tendencia SCentre
[4]
=
40 40
=1
Análisis de varianza para verificar tendencias
7
Llegaremos al mismo resultado si calculamos el coeficiente de correlación entre la media (o el total) de cada grupo y la numeración (número de orden) que corresponde a cada grupo (el sujeto o unidad es aquí el grupo, tenemos tantos sujetos como grupos). Es como si calculáramos la correlación con todos los sujetos, pero asignando a cada sujeto, como puntuación individual, la media (o total) de su grupo. 2º Tomando el sujeto como unidad: r=
o también r
=
F F + grados de libertad dentro SC tendencia SCtendencia
+ SC dentro
[5]
=
[6]
=
9.41 9.41 + 15
= .62
40 40 + 63.75
= .62
En los denominadores tenemos en [5] los grados de libertad dentro de los grupos o en [6] la suma de cuadrados dentro de los grupos; quizás con más propiedad habría que decir grados de libertad o suma de cuadrados del término del error (tratándose de varias muestras independientes el término del error es la varianza dentro de los grupos). Cuando tomamos el sujeto individual como unidad los coeficientes de correlación son menores que cuando utilizamos los totales o medias de cada grupo (en éste y en cualquier otro caso), sencillamente porque no prescindimos de las diferencias individuales dentro de cada grupo. Los dos coeficientes dan información distinta. Cuando nos referimos, por ejemplo, a la correlación entre edad y cualquier otra variable, nos referimos habitualmente a la correlación utilizando a cada sujeto como unidad; el utilizar la media o el total del grupo (como en [4]) también es útil porque nos avisa sobre la tendencia de una manera muy clara. Sin embargo estas correlaciones tomando el grupo como unidad son una estimación pobre de la correlación entre el dato individual y el grupo de pertenencia (edad en este caso): aquí hemos bajado de una perfecta relación (r = 1) a una relación moderada de r = .62 Como criterio general, tomaremos al sujeto como unidad utilizando las fórmulas [5] ó [6].
2.3. Cuando los grupos son de distinto tamaño Cuando los grupos son de distinto tamaño el procedimiento es el mismo con dos modificaciones: 1º el valor de n (número de sujetos en cada grupo), pasa a ser la media armónica de n: n armónica . =
k
Σ(1 k)
[7]
Vamos a suponer que en el ejemplo anterior los valores de n para los cinco grupos son 4, 5, 4, 6, y 5; la media armónica de n sería en este caso:
Análisis de varianza para verificar tendencias
8
n armónica
=
1 4
1
5 1
1
1
5
4
6
5
+ + + +
=
5 1.0667
= 4.69
2º El valor de T pasa a ser la media de cada grupo (M) multiplicada por la media armónica del número de sujetos: T = (M) (n armónica )
[8]
2.4. Contrastes posteriores entre medias Si nos interesa podemos comparar las medias de los grupos de dos en dos, o también podemos comparar una media con la media combinada de otros grupos; podemos comparar tanto medias como medias de medias si queremos unir dos grupos o más, teniendo en cuenta, al aplicar la fórmula, que si unimos dos grupos o más cambiará el número de sujetos. El contraste de medias lo hacemos mediante la t de Student con esta f órmula 3: M1 - M 2
t=
⎛ 1 1 ⎞ ⎜⎜ + ⎟⎟CM dentro ⎝ n 1 n 2 ⎠
[9]
Los grados de libertad para consultar las tablas son los de los Cuadrados Medios dentro de los grupos (término del error), 15 en este ejemplo. Lo vemos con dos ejemplos: a) Comparamos las medias de dos grupos, el 5º y el 3º: t=
16.25 − 14.25
⎛ 1 + 1 ⎞4.25 ⎜ ⎟ ⎝ 4 4 ⎠
= 1.372 (p > .05)
b) Comparamos la media de un grupo, el 5º, con la media combinada de los grupos 1º, 2º y 3º. La media de los tres primeros grupos, como tienen el mismo número de sujetos, es igual a la media de las medias = 13.25; el número de sujetos de este nuevo grupo es n = 4+4+4 = 12: t=
16.25 − 13.25
⎛ 1
1 ⎞
= 2.52 (con 15 de libertad: p < .05)
⎜ + ⎟4.25 ⎝ 12 4 ⎠
3 Es la misma fórmula de los contrastes posteriores de Fisher (LSD, Least Statistical Difference).
Análisis de varianza para verificar tendencias
9
De manera semejante podemos hacer otros contrastes de interés, aunque en este planteamiento lo que suele interesar fundamentalmente es verificar si se da o no se da una determinada tendencia: comprobar si la varianza debida a la tendencia a aumentar es superior a la varianza del término del error (la varianza dentro de los grupos, que expresa la variabilidad normal).
3. Verificación de tendencias en muestras relacionadas Cuando se trata de los mismos sujetos medidos en la misma variable en ocasiones sucesivas tenemos un planteamiento semejante: podemos comprobar si una determinada tendencia es estadísticamente significativa (superior a lo que podríamos encontrar por azar). Tenemos dos procedimientos para llegar a una respuesta: 1º Un análisis de varianza semejante al anterior; 2º Un contraste de medias utilizando unas puntuaciones individuales de tendencia al cambio que podemos calcular para cada sujeto. Este segundo procedimiento es independiente del análisis de varianza propiamente dicho pero completa la información; responde a estas preguntas ¿El cambio o evolución observado en nuestra muestra, se aparta significativamente de una media de cambio = 0? ¿Cuál es la magnitud del cambio?
3.1. Análisis de varianza Vamos a suponer que los mismos cuatro sujetos han sido medidos en tres ocasiones sucesivas (tabla 4).
N = 12 n=4 k=3 Total = Media = Desviación =
1ª ocasión 2ª ocasión ión 3ª ocasión 10 12 14 9 11 13 5 3 7 4 2 6 28 28 40 7 7 10 2.55 4.527 3.535 Tabla 4
Total 36 33 15 12
Media 12 11 5 4
Los únicos datos que necesitamos de la tabla 4 son los totales de las filas y de las columnas, aunque también hemos puesto en la tabla las medias (si sólo tenemos las medias, los totales son igual a la media por número de sujetos). Lo primero que vamos a hacer es un análisis de varianza convencional para muestras relacionadas (porque tenemos al mismo sujeto en cada fila); para calcular las sumas de cuadrados de filas y columnas son suficientes o los totales o las medias. Por lo que respecta a las filas (los sujetos) lo más cómodo suele ser utilizar los totales. En el caso de las columnas (las ocasiones en que han sido medidos los sujetos) las medias y desviaciones son en sí mismas informativas, aunque también podemos hacer el análisis de varianza a partir de los totales. t otales.
Análisis de varianza para verificar tendencias
10
Los resultados del análisis de varianza para muestras relacionadas están en la tabla 5. origen sujetos (filas) ocasiones (columnas) error (fil. x col) total
Sumas de Cuadrados 150 24 8 182
Grados de libertad 4 -1 = 3 3 -1 = 2 (f-1)(c-1) = 6 N -1 = 11 Tabla 5
Cuadrados Medios 150/3 = 50 24/2 = 12 8/6 = 1.33
F 37.59, p < .01 9.02, p<.01
La varianza debida a que los sujetos (filas) son distintos es estadísticamente significativa, pero este resultado no nos interesa especialmente. La varianza debida a las ocasiones también es estadísticamente significativa; es decir, hay diferencias significativas entre las ocasiones, pero lo que no nos dice este resultado es si la tendencia a aumentar progresivamente es estadísticamente significativa, que es precisamente lo que queremos verificar. Es verdad que al observar las medias podemos ver que la media que corresponde a la tercera ocasión es la media mayor, pero con los mismos datos, si cambiamos de orden las columnas, tendríamos el mismo resultado (F estadísticamente significativa). Si nos limitamos a este análisis de varianza no verificamos si esta tendencia a aumentar de ocasión a ocasión es superior a lo que podemos esperar por azar. Para comprobar si la tendencia lineal es estadísticamente significativa hacemos un análisis de varianza semejante al que hemos visto con muestras independientes. Necesitamos calcular los Cuadrados Medios (varianza) de esta tendencia para dividirlo por la varianza del término del error que ya hemos calculado en el análisis de varianza precedente (tabla 5). Los datos los disponemos tal como figuran en la tabla 6. ocasiones Totales
λ Tλ
1ª 28 -1 -28
2ª 28 0 0 Tabla 6
3ª 40 +1 + 40
Σλ2 = 2 L = ΣTλ = 12
Los coeficientes λ corresponden a una tendencia lineal (crecimiento o decrecimiento progresivo). La Suma de Cuadrados de esta tendencia la calculamos como antes [2]: CMtendencia =
L2 (n)(Σλ ) 2
=
12 2 (4)( 2)
= 18
Como los grados de libertad son siempre = 1, los Cuadros Medios coinciden con la Suma de Cuadrados. Ahora calculamos la razón F utilizando el término del error calculado en el análisis de varianza precedente (tabla 5): F=
18 1.33
= 13.53
Para grados de libertad = 1 (numerador) y 6 (denominador) tenemos que p < .05
Análisis de varianza para verificar tendencias
11
No solamente hemos probado que hay diferencias entre las ocasiones (primer análisis de varianza) sino que además se da una tendencia lineal a aumentar progresivamente de ocasión a ocasión. En este ejemplo el resultado era de esperar, pues vemos que la media en la tercera ocasión es superior a las medias de las ocasiones anteriores, pero no siempre los datos son tan claros. Y también puede suceder que en el primer análisis de varianza no tengamos resultados significativos y sí lo tengamos al verificar de manera específica la tendencia. Si nuestra hipótesis o predicción fuera que la tendencia es cuadrática (ir primero de menos a más y después de más a menos o viceversa) el procedimiento es el mismo; lo que cambian son los pesos λ por los que multiplicamos los totales, que son los que expresan una tendencia cuadrática . En este caso los cálculos serían los que figuran en la tabla 7. ocasiones Totales
λ Tλ
1ª 28 -1 -28
2ª 28 +2 + 56 Tabla 7
3ª 40 -1 - 40
Los Cuadrados Medios de la tendencia cuadrática son =
Y la razón F es igual a F =
.50 1.33
Σλ2 = 6 L = ΣTλ = -12 -12 2
(4)(6)
= .50
= .37
En este caso, puesto solamente como ejemplo, el resultado es obviamente no significativo (el denominador es superior al numerador): hay diferencias entre las columnas (ocasiones) tal como vimos en el primer análisis de varianza para muestras relacionadas, pero lo que no hay es una tendencia cuadrática, sino lineal en este caso. Con los mismos datos podemos verificar las dos tendencias.
3.2. Contraste de medias Como análisis complementario podemos verificar la magnitud del cambio . El proceso que vamos a seguir es el siguiente: 1º A cada sujeto le calculamos una puntuación individual de tendencia (de cambio individual). 2º Calculamos la media y desviación típica de estas puntuaciones de tendencia; 3º Hacemos un contraste de medias comparando la media de la muestra con la media de una hipotética población cuya media fuera 0; se trata del contraste de la media de una muestra con la media de una población de cambio cero. Ya hemos advertido antes que este procedimiento tiene una ventaja adicional: al disponer de una puntuación individual de tendencia a progresar (si la hipótesis es de tendencia lineal), podemos además comprobar relaciones posibles entre esta tendencia y otras variables que conozcamos de los sujetos (edad, sexo o cualquier otra).
Análisis de varianza para verificar tendencias
12
Vamos a ver el procedimiento con los datos de la tabla t abla 4. 1º Para calcular la puntuación en tendencia de cada sujeto, multiplicamos sus puntuaciones por los coeficientes λ oportunos; en este caso -1, 0 y +1 y sumamos a cada sujeto su nuevo total, que lo es de su tendencia al cambio progresivo. El nuevo cuadro de datos está en la tabla 8. En este caso se trata simplemente de restar la primera puntuación de la tercera (pero no sería lo mismo si tuviéramos más de tres ocasiones porque los valores de λ serían distintos). 2º De estas puntuaciones de tendencia calculamos la media y la desviación típica (también calculadas en la tabla 8). 1ª ocasión(-1) (10)(-1) = -10 (9)(-1) = -9 (5)(-1) = - 5 (4)(-1) = -4
2ª ocasión (0) (12)(0) = 0 (11)(0)= 0 (3)(0) = 0 (2)(0) = 0
3ª ocasión (+1) (14)(+1) = 14 (13)(+1) = 13 (7)(+1) = +7 (6)(+1) = +6 Media = Desviación = Tabla 8
nuevo total 4 4 2 2 3 1
3º Ahora calculamos la t de Student con la fórmula habitual para comparar la media de una muestra con la de una población hipotética de media µ = 0: t=
M-0
σ2 N -1
=
[10]
3- 0 12
= 5.19, con grados de libertad = 3, p < .05
4- 1
Nuestra muestra (con una media en cambio = 3) no pertenece a una población con una media de cero en cambio. Los resultados de ambos métodos, análisis de varianza y t de Student, no dan idénticos resultados aunque suelen ser similares y suelen llevar a las mismas conclusiones4.
3.3. ‘Magnitud del cambio’ ( tamaño del efecto ) En este caso (con tres ocasiones el cambio equivale a la diferencia entre la 3º ocasión y la 1ª) podríamos además calcular el tamaño del efecto habitual: diferencia entre las dos medias (ocasiones 1ª y 3ª) dividida por la desviación típica combinada de las dos, o la de la 3ª ocasión (siguiendo a Glass, como si se tratara de un post-test). En este ejemplo la media en cambio es 3 y la desviación del post-test es 3.535, por lo que el tamaño del efecto es 3/3.535 = .848; podemos valorar este cambio como grande.
4 Las diferencias pueden verse en Rosenthal (1987:166).
Análisis de varianza para verificar tendencias
13
3.4. Análisis correlacionales: relación entre cambio individual y otras variables La ventaja de disponer de una puntuación individual de tendencia (lineal, que es quizás lo más común, o cuadrática) es que nos permite comprobar relaciones entre la tendencia (o cambio) individual y otras características de los sujetos. También podemos hacer lo mismo cuando las ocasiones son dos (contraste de medias entre antes y después). El hecho de que la diferencia entre la media de la primera ocasión y la media de la última ocasión sea estadísticamente significativa quiere decir que el cambio en el grupo es superior a lo que podemos esperar por azar; al grupo se ha movido, ha evolucionado, pero no nos dice nada sobre cada sujeto en particular. Unos sujetos han podido cambiar más, otros menos, otros nada e incluso alguno ha podido cambiar en dirección opuesta a la de la mayoría. Si disponemos de otros datos de los sujetos podemos verificar la relación entre otras variables y el cambio. Este tipo de análisis puede aportar gran riqueza informativa a cualquier investigación. Por ejemplo, en un estudio sobre la eficacia de un tratamiento de la dislexia (Benito, 1999) los sujetos fueron medidos en tres ocasiones distintas en diversas variables que sirven de diagnóstico de la dislexia. Los resultados muestran una tendencia estadísticamente significativa (análisis de varianza, los sujetos van mejorando de una vez a otra), y el cambio final (tamaño del efecto ) es grande. Pero además se disponía de otros datos de los sujetos; calculando las correlaciones entre estos datos y el cambio ( mejora) en dislexia, se observa que esta mejora en dislexia es independiente del nivel socio-económico de la familia o número de hermanos y en cambio está relacionada con variables tales (entre otras) como grado de asistencia de los padres a las sesiones de evaluación y asistencia regular de los niños a clase. Naturalmente para poder hacer estos análisis hay que haber previsto qué información adicional se necesita o puede ser conveniente.
4. Referencias bibliográficas BENITO PEREGRINA, MANUELA de (1999). Aproximación al concepto de dislexia: un estudio sobre las características de los alumnos disléxicos en un entorno bilingüe . Tesis doctoral. Madrid: Universidad Pontificia Comillas. ESCOTET, MIGUEL A., (1980). Diseño multivariado en psicología y educación. Barcelona: Ceac. GUILFORD, J. P. Y FRUCHTER, B., (1984). Estadística aplicada a la psicología y la educación, México: McGraw-Hill. [En inglés: Fundamental Statistics in Psychology and Education, 1973. New York: McGraw-Hill]. KIRK, ROGER E., (1995). Experimental Design, Procedures for the Behavioral Sciences. Boston: Brooks/Cole. ROSENTHAL, ROBERT, (1987). Judgment Studies, Design, analysis and meta-analysis. Cambridge: Cambridge University Press. TEJEDOR, FRANCISCO JAVIER, (1984). Análisis de varianza aplicada a la investigación en pedagogía y psicología. Madrid: Anaya
Análisis de varianza para verificar tendencias
14
Anexo. Tabla de los pesos ( ) aplicables para verificar t endencias En la tabla 9 están los pesos ( λ) aplicables para verificar tendencias (lineares o cuadráticas)5 cuando las muestras (columnas, muestras independientes o muestras relacionadas) están ordenadas (tablas más completas pueden verse en l os autores citados). tendencia
3 Linear Cuadrática 4 Linear Cuadrática 5 Linear Cuadrática 6 Linear Cuadrática
1 -1 +1 -3 +1 -2 +2 -5 +5
2 0 -2 -1 -1 -1 -1 -3 -1
número de columnas 3 4 +1 +1 +1 +3 -1 +1 0 +1 -2 -1 -1 +1 -4 -4 Tabla 9
5
6
+2 +2 +3 -1
+5 +5
5 Estas tablas se encuentran en numerosos textos (por ejemplo Guilford y Fruchter; 1973; Escotet, 1980; Tejedor, 1984; Rosenthal, 1987; Kirk, 1995), y en Internet, por ejemplo (hasta 10 medidas o columnas) en LANE, DAVID M. HyperStat Online Statistics Textbook, http://davidmlane.com/hyperstat/index.html http://davidmlane.com/hyperstat/index.html,, nº 12. Las tendencias cúbicas (dos cambios de dirección) pueden comprobarse a partir de cuatro ocasiones, suelen ser de interés con menor frecuencia que las otras dos.
Análisis de varianza para verificar tendencias
Última revisión 25 de Marzo de 2009
Índice 1. Distribución normal............................................ normal................................................................... .............................................. ............................... ........
3
2. t de Student...................................... Student............................................................. .............................................. .............................................. ........................... ....
6
3. Ji cuadrado............................................. cuadrado.................................................................... ............................................. ............................................ ......................
7
4. r de Pearson ............................................ ................................................................... .............................................. ........................................... ....................
8
5. F de Snedecor ............................................. .................................................................... .............................................. ....................................... ................
9
6. Tukey................................................... Tukey.......................................................................... .............................................. .............................................. .......................
11
7. Dunnett ............................................ ................................................................... .............................................. .............................................. ........................... ....
12
2
3
1. Tablas de la Distribución Normal --
Área mayor Área menor
0
+
--
0
+
Puntuación típica positiva
Puntuación típica negativa
Proporción de casos por debajo Proporción de casos por encima
Proporción de casos por encima Proporción de casos por debajo
Proporción de casos por debajo : percentil (multiplicando por 100) correspondiente a cada puntuación típica; Puntuación típica positiva: área mayor Puntuación típica negativa: área menor
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.19 0.20 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.30 0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39 0.40
Área mayor 0.50 0.504 0.508 0.512 0.516 0.5199 0.5239 0.5279 0.5319 0.5359 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753 0.5793 0.5832 0.5871 0.591 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.648 0.6517 0.6554
Área menor 0.50 0.496 0.492 0.488 0.484 0.4801 0.4761 0.4721 0.4681 0.4641 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247 0.4207 0.4168 0.4129 0.409 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.352 0.3483 0.3446
z 0.41 0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49 0.50 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59 0.60 0.61 0.62 0.63 0.64 0.65 0.66 0.67 0.68 0.69 0.70 0.71 0.72 0.73 0.74 0.75 0.76 0.77 0.78 0.79 0.80 0.81
Área mayor 0.6591 0.6628 0.6664 0.67 0.6736 0.6772 0.6808 0.6844 0.6879 0.6915 0.695 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.719 0.7224 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549 0.758 0.7611 0.7642 0.7673 0.7703 0.7734 0.7764 0.7794 0.7823 0.7852 0.7881 0.791
Área menor 0.3409 0.3372 0.3336 0.330 0.3264 0.3228 0.3192 0.3156 0.3121 0.3085 0.305 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.281 0.2776 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451 0.242 0.2389 0.2358 0.2327 0.2297 0.2266 0.2236 0.2206 0.2177 0.2148 0.2119 0.209
z 0.82 0.83 0.84 0.85 0.86 0.87 0.88 0.89 0.90 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.10 1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19 1.20 1.21 1.22
Área mayor 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.834 0.8365 0.8389 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.877 0.879 0.881 0.883 0.8849 0.8869 0.8888
Área menor 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.166 0.1635 0.1611 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.123 0.121 0.119 0.117 0.1151 0.1131 0.1112
4
z 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.30 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.40 1.41 1.42 1.43 1.44 1.45 1.46 1.47 1.48 1.49 1.50 1.51 1.52 1.53 1.54 1.55 1.56 1.57 1.58 1.59 1.60 1.61 1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 1.70 1.71 1.72 1.73 1.74 1.75 1.76
Área mayor 0.8907 0.8925 0.8944 0.8962 0.898 0.8997 0.9015 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319 0.9332 0.9345 0.9357 0.937 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608
Área menor 0.1093 0.1075 0.1056 0.1038 0.102 0.1003 0.0985 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681 0.0668 0.0655 0.0643 0.063 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392
z 1.77 1.78 1.79 1.80 1.82 1.81 1.83 1.84 1.85 1.86 1.87 1.88 1.89 1.90 1.91 1.92 1.93 1.94 1.95 1.96 1.97 1.98 1.99 2.00 2.01 2.02 2.03 2.04 2.05 2.06 2.07 2.08 2.09 2.10 2.11 2.12 2.13 2.14 2.15 2.16 2.17 2.18 2.19 2.20 2.21 2.22 2.23 2.24 2.25 2.26 2.27 2.28 2.29 2.30
Área mayor 0.9616 0.9625 0.9633 0.9641 0.9656 0.9649 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.975 0.9756 0.9761 0.9767 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817 0.9821 0.9826 0.983 0.9834 0.9838 0.9842 0.9846 0.985 0.9854 0.9857 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.989 0.9893
Área menor 0.0384 0.0375 0.0367 0.0359 0.0344 0.0351 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.025 0.0244 0.0239 0.0233 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183 0.0179 0.0174 0.017 0.0166 0.0162 0.0158 0.0154 0.015 0.0146 0.0143 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.011 0.0107
z 2.31 2.32 2.33 2.34 2.35 2.36 2.37 2.38 2.39 2.40 2.41 2.42 2.43 2.44 2.45 2.46 2.47 2.48 2.49 2.50 2.51 2.52 2.53 2.54 2.55 2.56 2.57 2.58 2.59 2.60 2.61 2.62 2.63 2.64 2.65 2.66 2.67 2.68 2.69 2.70 2.71 2.72 2.73 2.74 2.75 2.76 2.77 2.78 2.79 2.80 2.81 2.82 2.83 2.84
Área mayor 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916 0.9918 0.992 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936 0.9938 0.994 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952 0.9953 0.9955 0.9956 0.9957 0.9959 0.996 0.9961 0.9962 0.9963 0.9964 0.9965 0.9966 0.9967 0.9968 0.9969 0.997 0.9971 0.9972 0.9973 0.9974 0.9974 0.9975 0.9976 0.9977 0.9977
Área menor 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084 0.0082 0.008 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064 0.0062 0.006 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048 0.0047 0.0045 0.0044 0.0043 0.0041 0.004 0.0039 0.0038 0.0037 0.0036 0.0035 0.0034 0.0033 0.0032 0.0031 0.003 0.0029 0.0028 0.0027 0.0026 0.0026 0.0025 0.0024 0.0023 0.0023
5
z 2.85 2.86 2.87 2.88 2.89 2.90 2.91 2.92 2.93 2.94 2.95 2.96 2.97 2.98 2.99 3.00 3.01 3.02 3.03 3.04 3.05 3.06
Área mayor 0.9978 0.9979 0.9979 0.998 0.9981 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989
Área menor 0.0022 0.0021 0.0021 0.002 0.0019 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014 0.0013 0.0013 0.0013 0.0012 0.0012 0.0011 0.0011
z 3.07 3.08 3.09 3.10 3.11 3.12 3.13 3.14 3.15 3.16 3.17 3.18 3.19 3.20 3.21 3.22 3.23 3.24 3.25 3.26 3.27 3.28
Área mayor 0.9989 0.999 0.999 0.999 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995
Área menor 0.0011 0.001 0.001 0.001 0.0009 0.0009 0.0009 0.0008 0.0008 0.0008 0.0008 0.0007 0.0007 0.0007 0.0007 0.0006 0.0006 0.0006 0.0006 0.0006 0.0005 0.0005
z 3.29 3.30 3.31 3.32 3.33 3.34 3.35 3.36 3.37 3.38 3.39 3.40 3.41 3.42 3.43 3.44 3.45 3.46 3.47 3.48 3.49 3.50
Área mayor 0.9995 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998 0.9998
Área menor 0.0005 0.0005 0.0005 0.0005 0.0004 0.0004 0.0004 0.0004 0.0004 0.0004 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0002 0.0002
6
2. Tablas de la t de Student Pruebas de una cola (unilaterales) Pruebas de dos colas (bilaterales)
Grados de libertad
Grados de libertad: Muestras independientes: N 1 + N2 -2 Muestras relacionadas: N-1
Adaptadas de STATSOFT, INC. (2002). Electronic Statistics Textbook . Tulsa, OK: StatSoft. WEB: http://www.statsoft.com/textbook/stathome.html
7
3. Tablas del ji cuadrado ( 2) Grados de libertad 1 3 4 5 6 7 8 9 10 11 12
p= 0.05
p= 0.01
p= 0.001
3.84 7.82 9.49 11.07 12.59 14.07 15.51 16.92 18.31 19.68 21.03
6.64 11.35 13.28 15.09 16.81 18.48 20.09 21.67 23.21 24.73 26.22
10.83 16.27 18.47 20.52 22.46 24.32 26.13 27.88 29.59 31.26 32.91
Grados de libertad 13 14 15 16 17 18 19 20 21 22 23
p= 0.05
p= 0.01
22.36 23.69 25.00 26.30 27.59 28.87 30.14 31.41 32.67 33.92 35.17
27.69 29.14 30.58 32.00 33.41 34.81 36.19 37.57 38.93 40.29 41.64
p= 0.001 34.53 36.12 37.70 39.25 40.79 42.31 43.82 45.32 46.80 48.27 49.73
Grados de libertad 24 25 26 27 28 29 30 40 50 60 70
p= 0.05
p= 0.01
36.42 37.65 38.89 40.11 41.34 42.56 43.77 55.76 67.51 79.08 90.53
42.98 44.31 45.64 46.96 48.28 49.59 50.89 63.69 76.15 88.38
p= 0.001
51.18 52.62 54.05 55.48 56.89 58.30 59.70 73.41 86.66 99.62 100.42 112.31
Tablas adaptadas y abreviadas de Alexei Sharov, Virginia Tech, Blacksburg, VA, Quantitative Population Ecology, On-Line Lectures http://www.ento.vt.edu/~sharov/PopEcol/
8
4. Tablas del coeficiente de correlación r de Pearson Tablas del coeficiente de correlación r de Pearson (N entre 3 y 102) Grados de libertad = N-2
Con muestras
grandes: z=
r 1/ N-1
y consultar las tablas de la distribución normal; z >1.96, p<.05 z >2.56, p<.01 z >3.3, p<.001
o consultar alguna dirección de Internet .
Estas tablas se encuentran en muchas direcciones de Internet, como Cosme Chaves http://costaricalinda.com/Estadistica/ (tablas) (tablas) Introducción a la Estadística http://costaricalinda.com/Estadistica/ La probabilidad exacta de cualquier valor de r puede verse en estas direcciones (entre otras muchas) http://graphpad.com/quickcalcs/PValue1.cfm , http://department.obg.cuhk.edu.hk/ResearchSupport/Correlation_coeff.asp http://faculty.vassar.edu/lowry/VassarStats.html;; http://faculty.vassar.edu/lowry/VassarStats.html Los valores mínimos estadísticamente significativos de r (p =.05, .01 y .001 para para cualquier valor de N en http://department.obg.cuhk.edu.hk/ResearchSupport/Minimum_correlation.asp
9
5. Tablas de la F de Snedecor
10
Adaptadas y simplificadas de SIX SIGMA Reference Tables http://www.micquality.com/reference_tables/f_tables010.htm y de Bissonnette, Victor L., Berry College http://facultyweb.berry.edu/vbissonnette/ Al final de Análisis de varianza para varias muestras independientes pueden verse direcciones de Internet con diversas tablas y para ver la probabilidad exacta de cualquier valor de t y F.
11
6. Tablas del rango estudentizado (q) de Tukey
12
7. Tablas de Dunett Para comparar varias medias con la media de un grupo de control, Muestras de idéntico tamaño, pruebas bilaterales Número de medias sin incluir el grupo de control grados de libertad
Adaptadas de http://www.forecastingprinciples.com/tables.pdf http://www.forecastingprinciples.com/tables.pdf ,, Lane, David M. HyperStat Online Statistics Textbook (http://davidmlane.com/hyperstat/index.html) http://davidmlane.com/hyperstat/table_Dunnett.html (en Introduction to Between-Subjects ANOVA Comparing means with a control )
Otros modelos de análisis de varianza: variantes de los diseños factoriales © Pedro Morales Vallejo Universidad Pontificia Comillas Facultad de Ciencias Humanas y Sociales (Última revisión 21 de Noviembre de 2009)
Índice 1. Introducción ............................................. ..................................................................... ................................................ .................................... ............ 2. Análisis de varianza con dos criterios de clasificación clasificación (diseños factoriales): cuando n =1.............................................. =1..................................................................... .............................................. ..................................... .............. 2.1. Qué suponemos (y qué no analizamos) analizamos) cuando n = 1 .................................. .................................. 2.2. En qué situaciones podemos disponer de un sujeto o una observación en cada clasificación clasificación........................ ................................................. ................................................. .................................... ............ 2.3. Procedimiento Procedimiento ............................................... ...................................................................... ............................................... .......................... 3. Análisis de varianza de un solo factor para bloques aleatorios (alternativa al análisis de covarianza) ............................................. ................................................................. .................... 3.1. En qué sentido se trata de una alternativa al análisis de covarianza ............ 3.2. Procedimiento Procedimiento ............................................... ...................................................................... ............................................... .......................... 3.3. Interpretación de los resultados ................................................ .................................................................... .................... 3.4. Diseño alternativo alternativo ............................................... ...................................................................... .......................................... ................... 4. Análisis de varianza jerárquico o anidado para muestras independientes ...... ......... ..... 4.1. Cuándo nos puede interesar este planteamiento planteamiento ........................................... ........................................... 4.2. Procedimiento Procedimiento 1 ............................................... ....................................................................... ............................................. ..................... 4.3. Procedimiento Procedimiento 2 (EXCEL)............................................. (EXCEL)..................................................................... ............................... ....... 5. Análisis de varianza jerárquico o anidado para muestras relacionadas .......... ............. ... 5.1. Interés del planteamiento planteamiento..................... ............................................. ................................................ ................................. ......... 5.2. Procedimiento Procedimiento 1 ............................................... ....................................................................... ............................................. ..................... 5.3. Procedimiento Procedimiento 2 (EXCEL)............................................. (EXCEL)..................................................................... ............................... ....... 6. Análisis de varianza: diseños factoriales (nxn) para muestras relacionadas........ 6.1. Interés del planteamiento planteamiento..................... ............................................. ................................................ ................................. ......... 6.2. Procedimiento Procedimiento ............................................... ...................................................................... ............................................... .......................... 6.3. Programa en Internet............................................. Internet...................................................................... ........................................ ............... 7. Análisis de varianza: diseños mixtos ............................................ ................................................................... ......................... 7.1. Muestras independientes independientes y muestras relacionadas en el mismo análisis...... 7.2. Procedimiento Procedimiento 1 ............................................... ....................................................................... ............................................. ..................... 7.3. Procedimiento Procedimiento 2 (EXCEL)............................................. (EXCEL)..................................................................... ............................... ....... 7.4. Programa en Internet............................................. Internet...................................................................... ........................................ ............... 8. Referencias bibliográficas bibliográficas....................... ................................................ .................................................. .................................... ...........
3 3 3 4 5 7 7 8 10 10 10 10 11 12 14 14 14 16 19 19 19 22 22 22 24 30 32 32
2
Otros modelos de análisis de varianza
3
1. Introducción Presentamos otros modelos de análisis de varianza que responden a preguntas y diseños más específicos. Prácticamente todos son variantes de los diseños factoriales, con dos criterios de clasificación. Hay más modelos y variantes; los expuestos aquí pueden ser especialmente especialmente útiles porque responden a planteamientos relativamente frecuentes y factibles. Si investigar es en última instancia responder a preguntas, podremos hacernos más y mejores preguntas si disponemos de un repertorio amplio de respuestas . Las respuestas nos las dan a la vez los análisis estadísticos y los diseños; un mismo análisis, como el análisis de varianza bifactorial, puede responder a distintos diseños. La misma selección y disposición de los datos, tal como aparecen en las tablas propias de los diversos enfoques del análisis de varianza y que presentamos aquí, pueden sugerir de manera intuitiva otras preguntas y planteamientos de investigación; basta pensar en otros factores o criterios para clasificar a los sujetos, manteniendo el mismo diseño o configuración de las tablas y el modo de análisis. Aunque dispongamos de programas como el SPSS, el visualizar casos concretos, resueltos e interpretados, nos puede ayudar a seleccionar e interpretar mejor el output que nos dan estos programas. Cuando sea factible expondremos varios procedimientos 1) utilizando medias y desviaciones, 2) combinando los resultados de los análisis de varianza disponibles en EXCEL y 3) utilizando programas programas de Internet. 2. Análisis de varianza con dos criterios de clasificación clasifi cación (diseños factoriales): cuando n =1 El análisis de varianza con dos criterios de clasificación tiene una interesante modalidad en la que no suele pensarse: en cada celdilla puede haber una sola observación, el dato de un solo sujeto, o quizás con más frecuencia, la media de un grupo, pero en cualquier caso tendremos n = 1 en cada clasificación. No es ésta una situación muy frecuente, pero es posible hacer el análisis de varianza con un solo dato en cada celdilla y puede tener su interés 1. 2.1. Qué suponemos (y qué no analizamos) cuando n = 1 En todos estos casos hay que tener algo muy claro: con n = 1 lo que no podemos es verificar si la interacción entre los dos factores es significativa (si produce diferencias en la variable dependiente y superiores a lo meramente aleatorio). Esta no interacción entre los dos factores es un presupuesto previo; al menos prescindimos de esta interacción. También cabe el que podamos dar por hecho que ambos factores están relacionados y que la interacción es importante, pero prescindimos de su confirmación. Qué significa no analizar la interacción lo vemos de manera clara con el ejemplo que nos va a servir para exponer el procedimiento (tabla 1). Los dos factores pueden pueden ser: Factor A: dos facultades facultades de la misma universidad, universidad, Factor B: género del alumno
1 No es frecuente encontrar este planteamiento en los textos habituales; una buena explicación con un ejemplo resuelto puede verse en Iversen y Norpoth (1987). El procedimiento que utilizamos aquí está más simplificado. Otros modelos de análisis de varianza
4
Se trata de los alumnos y alumnas del último curso; la variable dependiente (la que medimos) es satisfacción con la carrera, medida en una escala de 1 a 10. Los datos tabulados son las medias. Factor A (facultad)
B1 (sexo alumno) B2
A1 3 8
A2 6 8
medias de A
5.5
7
Factor B
medias de B
4.5 8
Tabla 1 Nuestras hipótesis (de acuerdo con los dos criterios de clasificación o factores) pueden ser estas dos: 1) Los alumnos en general están más satisfechos en una carrera que otra (por ejemplo A2 > A1) 2) Las alumnas están más satisfechas que los alumnos (B 2 > B1) Lo que no podemos verificar con n = 1 es si en el caso de que en una carrera los alumnos están más satisfechos que en otra, esa diferencia se explica precisamente porque en esa carrera (y no en otras) las alumnas están más satisfechas que los alumnos (es lo que llamamos interacción de los dos factores) No podemos analizar la varianza correspondiente a la interacción porque nos falta en este caso el denominador de la razón F. Este denominador debería ser la varianza dentro de los grupos (recordemos que es n Σσ2/N-k) como ya hemos visto en la situación habitual de n > 1; en este caso, con un sólo sujeto en cada grupo, no hay obviamente varianza dentro de los grupos. Este denominador (varianza dentro de los grupos) es también el que correspondería a las otras dos razones F (de los dos factores), pero en este caso utilizamos como denominador la varianza residual, la que nos queda cuando restamos a la varianza total las varianzas correspondientes correspondientes a los dos factores. 2.2. En qué situaciones podemos disponer de un sujeto o una observación en cada clasificación Naturalmente el análisis posible con n = 1 es más limitado que cuando tenemos más sujetos en cada clasificación. Sin embargo este análisis puede ser de interés en estos casos: a) En cada casilla tenemos un solo sujeto o una sola observación porque por alguna razón ése es el único dato disponible y aun así este tipo de análisis responde a una pregunta de interés para el investigador. b) Cuando utilizamos utilizamos medias en vez de todas las puntuaciones individuales. individuales. En los casos en que n = 1, lo normal es que se trate de medias de grupos. El utilizar medias es frecuente en estas circunstancias: 1. Cuando es el único dato disponible; a veces tomado de otras fuentes. 2. Como análisis preliminar, para ver si los dos factores principales (no su interacción) tienen algún efecto en la variable dependiente antes de hacer el proceso completo con todos los datos. O simplemente para tener una visión general, prescindiendo de diferencias individuales; podemos además hacer el análisis de varianza con todos los sujetos. Otros modelos de análisis de varianza
5
3. Cuando las muestras son de tamaño desigual lo más frecuente (y recomendado) es eliminar sujetos aleatoriamente aleatoriamente para igualar los grupos, pero si las muestras, además de ser de tamaño desigual, son muy pequeñas, una posibilidad es utilizar las medias y así todas las muestras quedan igualadas en n = 1. También podemos utilizar medias con muestras desiguales aunque sean relativamente grandes. 2.3. Procedimiento En última instancia el procedimiento que vamos a seguir (cuando tenemos solamente dos factores o criterios de clasificación) es de facto idéntico al análisis de varianza para muestras relacionadas; no es el mismo planteamiento pero las operaciones y el output son los mismos. Es más, si utilizamos un programa de ordenador podemos utilizar el de análisis de varianza para muestras relacionadas aplicado aplicado a los datos de un diseño factorial de dos factores con un solo sujeto en cada casilla (tenemos en definitiva definitiva filas y columnas )2. Explicamos el procedimiento mediante un sencillo ejemplo (datos en la tabla 1). 1º Cálculos previos: a) medias de los niveles de A y B (tabla 1) 2 σ de A = b) varianzas de las medias de A y B .75 2 2 σ de B = 1.75 2 2 σt = c) varianza de los totales: 2.052 2 2º Sumas de cuadrados de A = Nσ MA = (4)(.752) = 2.25 2 de B= Nσ MB = (4)(1.752) = 12.25 del total = N σ 2t = (4)(2.052) = 16.81 residual: = SC t - (SCA + SCB) = 16.81-(12.25+ 2.25) = 2.31 La suma de cuadrados residual (del término del error, de la varianza aleatoria que nos va a servir como término de comparación) es lo que nos queda después de eliminar de la varianza total la correspondiente a los dos factores. Los grados de libertad son los usuales. La tabla de resultados la tenemos en tabla 2.
Origen de la variación
Factor A (facultades) factor B (sexo alumno)
SC
gl
numerador
denominador
2
CM = σ =
2.25
A -1 = 1
2.25
12.25
B-1=1
12.25
residual
2.31
(A-1)(B-1)= 1
2.31
Total
16.81
N - 1 = 23
SC gl
F=
σ2 σ
2
2.25 = .97 2.31 12.25 = 5.30 2.31
p p > .05 p < .01
Tabla 2 Solamente la varianza del Factor B es estadísticamente significativa; nuestra conclusión es que el sexo del alumno tiene que ver con la satisfacción con sus estudios (las alumnas alumnas están más satisfechas). Tendremos una F significativa con más facilidad en la medida en que la varianza residual (el denominador de la razón F) sea menor, y ésta será menor cuando los grados de
2 En EXCEL se trata del análisis de varianza de dos factores con una muestra por grupo Otros modelos de análisis de varianza
6
libertad de esta varianza residual sean más; por lo tanto con más niveles o categorías de clasificación clasificación en cada factor tenemos más probabilidad de detectar diferencias significativas. significativas. Podemos ver qué sucede con los datos de la tabla 3 de análisis de varianza con dos criterios de clasificación clasificación 3 si utilizamos solamente las medias de los grupos en vez de los datos individuales. En esta tabla 3 tenemos los datos, utilizando solamente las medias (factor A métodos y factor B profesores). B1 B2 B3 B4 medias
A1 4 5 7 8 6
A2 3 5 5 7 5
A3 2 2 6 6 4
medias 3 4 6 7
Tabla 3 2
La varianzas que calculamos previamente son:
σ MA =
.667 2 σ MB = 2.50 2 σt = 3.49
La tabla de resultados la tenemos en la tabla 4. El número de datos (N, que aquí es número de medias pues es la unidad de análisis que estamos utilizando) es igual a 12. Origen de la variación
SC numerador
Factor A (métodos)
(12)(.667) = 8
factor B (profesores)
(12)(2.5) = 30
residual
Total
gl denominador
CM = σ =
3 -1 = 2
8
4-1=3
2 30
(12)(3.49) - (30 + 8) (3-1)(4-1) = 6 = 3.88 (12) (3.49) = 41.88
2
3 3.88 6
SC gl
=4 = 10
F= 4 .646 10 .646
σ σ
2 2
p
= 6.19
p < .05
= 15.48
p < .01
=.646
12- 1 = 11
Tabla 4 Para comparar de una manera sencilla y rápida los resultados utilizando o bien todos los datos individuales, o solamente las medias, podemos calcular en ambos casos el coeficiente η2 que expresa la proporción de varianza en la variable dependiente que podemos atribuir a diferencias entre los distintos niveles de cada uno de los factores. El coeficiente η2 lo calculamos dividiendo cada suma de cuadrados parcial por la suma de cuadrados total; obviamente expresa una proporción (y un porcentaje al multiplicarlo por 100).
3 Nos referimos a la tabla 3 del documento Análisis de varianza con dos criterios de clasificación (diseños factoriales)
Otros modelos de análisis de varianza
7
Proporción de varianza explicada por diferencias ( η2): en el Factor A en el Factor B 40 150 Utilizando todos los datos individuales 4: η2= =.107 (11%) .40 (40%) 374 374 8 30 =.191 (19%) =.71 (71.6%) 41.88 41.88 Utilizando tanto todos los datos individuales como las medias de cada subgrupo el panorama general es el mismo aunque los valores absolutos son muy distintos: el factor B (diferencias entre profesores) explica una mayor proporción de varianza que el factor A (diferencias entre métodos). 3. Análisis de varianza de un solo factor para bloques aleatorios (alternativa al análisis de covarianza) Aunque a este diseño se le suele denominar de un solo factor (porque es un factor el que nos interesa), ya vamos a ver que se trata realmente de dos factores y estamos en un caso específico de los diseños factoriales. 3.1. En qué sentido se trata de una alternativa al análisis de covarianza El análisis de covarianza es un tipo de análisis análogo al análisis de varianza en el que, dicho de manera muy simple, controlamos o neutralizamos una o más variables que pueden estar influyendo en nuestra variable dependiente de interés. Por ejemplo, si comparamos en rendimiento tres grupos que han seguido tres métodos distintos, el rendimiento previo, o los resultados de un pre-test, etc., puede estar contaminando los resultados y puede no quedar claro si las diferencias entre las muestras se deben (en un cierto grado al menos) a las diferencias entre los métodos (que es lo que nos interesa comprobar) o a diferencias en otras variables como la preparación previa, motivación, etc., que trae el alumno. Mediante el análisis de covarianza podemos comparar a las tres muestras pero igualadas en la variable (o variables) que deseamos controlar (ajustando las medias mediante procedimientos estadísticos que tienen en cuenta la correlación entre la variable controlada y la variable dependiente) 5. Con este diseño vamos a controlar una variable (pueden ser más) porque esa variable va a ser precisamente uno de los dos criterios para clasificar a los sujetos, como veremos al explicar el procedimiento. El término bloques aleatorios quiere decir que los sujetos de cada bloque en rendimiento previo (o en la variable que queramos controlar) son asignados aleatoriamente a los distintos niveles del otro factor (los distintos métodos en este caso); es entonces cuando este diseño es análogo o equivalente al análisis de covarianza y es experimental en sentido propio. Esta alternativa (y otras análogas) al análisis de covarianza es de interés porque el análisis de covarianza está positivamente positivamente desaconsejado desaconsejado cuando no hay asignación aleatoria Utilizando solamente las medias:
η
2
=
4 Hemos utilizado todos los datos individuales en el ejemplo presentado en Análisis de varianza con dos criterios de clasificación (diseños factoriales)
5 Cuando hay asignación aleatoria, autores como Guildford y Fruchter (1973:270) y Huitema (1980: 125) prefieren un diseño del tipo matching (emparejamiento de los sujetos de dos en dos en la variable o variables que se quieren controlar) o de bloques aleatorios al análisis de covarianza (prefieren controles más directamente observables sin recurrir a procedimientos estadísticos). Puede verse más explicado en El control de variables: control estadístico (análisis de covarianza) y control experimental mediante diseño http://www.upco.es/personal/peter/investigacion/Controldevariables.pdf Otros modelos de análisis de varianza
8
de los sujetos a las diversas condiciones 6, y esto no es siempre fácil o posible cuando trabajamos con grupos hechos. Este sería el caso (frecuente) si los alumnos pertenecen a clases distintas y ya formadas 7. Ya no podríamos hablar de diseño experimental porque al no haber asignación aleatoria de los sujetos de cada bloque a las distintas clases no controlamos otras variables (y habría que tenerlo en cuenta en la interpretación y valoración de los resultados) pero este análisis siempre aporta una información útil aunque más limitada, y en cualquier caso es la alternativa apropiada al análisis de covarianza que no se debe hacer cuando no hay asignación aleatoria de los sujetos a las distintas condiciones. 3.2. Procedimiento El planteamiento es exactamente igual al de los diseños factoriales con dos factores, un factor es el factor principal (ejercicios) y el otro factor son los criterios de agrupamiento. También podemos resolverlo directamente en EXCEL si disponemos de todos los datos individuales (no sólo las medias de cada subgrupo como en este procedimiento). El método para resolverlo es también el mismo ya visto (tabla 5) 8. Este planteamiento de análisis de varianza (y que como otros modelos de análisis de varianza responde a un diseño específico) lo presentamos con un ejemplo (datos ficticios, tabla 5) en el que tenemos: 1º Un único factor principal o criterio de clasificación dividido en tres niveles; en este ejemplo se trata de tres ejercicios (o experiencias didácticas), o de tres variantes de un mismo método. Se plantea a los alumnos un mismo ejercicio que consta a) de un texto que deben leer y b) seguido de una serie de preguntas de comprensión y análisis y es en estas preguntas donde se introducen tres variantes (que son los tres niveles de este factor): 1ª preguntas objetivas, objetivas, 2ª preguntas objetivas más explicación de la repuesta elegida y 3ª preguntas abiertas. 2º Los sujetos, alumnos en este caso, están divididos en tres bloques según rendimiento previo (alto, medio y bajo )9, porque es ésta la variable que queremos controlar; el criterio de controlamos. agrupación es precisamente la variable que controlamos. En cada clasificación el número de sujetos debe ser el mismo (como en la tabla 5), por eso hay que buscar un número de bloques adecuado para que dentro de cada bloque no haya sujetos muy distintos (en este ejemplo, y con números iguales en cada bloque, en los bloques alto y bajo podría haber sujetos demasiado demasiado distintos en la variable que queremos controlar). La variable dependiente puede ser un breve test de comprensión de los conceptos presentes en el texto estudiado. Lo que se desea averiguar es qué tipo de preguntas favorecen más la comprensión de los conceptos. Puede suceder que un ejercicio sea más eficaz que los otros independientemente del nivel de los alumnos o que un determinado tipo de ejercicios sea mejor para determinados alumnos (los sujetos son distintos en cada clasificación; se trata de muestras independientes).
6 Pueden verse, por ejemplo, Kirk, (1995:708-709) y Hinkle, Wiersma y Jurs (1994:485). 7 Tendríamos que suponer que el mismo profesor da la misma asignatura en las tres clases. 8
Si utilizamos EXCEL, en Herramientas vamos a Análisis de datos y elegimos Análisis de Varianza de dos factores
con varias muestras por grupo
9 El rendimiento previo podrían ser notas previas, un pre-test, etc.; estos datos suelen recogerse antes del tratamiento pero no hay problema en buscarlos durante o después del tratamiento si se puede justificar que no se ven afectados por el tratamiento o variable independiente (Huitema, 1980:133, 135). Otros modelos de análisis de varianza
9
σt = los totales (N = 36) las medias de los ejercicios (3 medias)σMA= Desviación típica de las medias de los bloques (3 medias) σMB= las medias de los grupos (9 medias) σMg= 2 ∑σ g = Suma de las varianzas de los grupos (6 varianzas)
Cálculos previos:
Factor B: Bloques igualados
Factor A: ejercicios A2 Ejercicio 2 50 31 43 11 33.75 (14.79) 29 38 18 35 30.00 (7.65) 23 7 12 9 12.75 (6.18) 25.50
A1 Ejercicio 1 57 45 27 25 38.50 (13.22) 56 38 26 8 32.00 (17.49) 26 21 18 10 18.75 (5.80) 29.75
B1: rendimiento previo alto : Media y desviación B2: rendimiento previo medio Media y desviación: B3: rendimiento previo bajo Media y desviación: Medias Ejercicios
A3 Ejercicio 3 58 34 36 30 39.50 (10.90) 56 16 25 5 25.50 (18.98) 48 19 38 23 32.00 (11.64) 32.33
15.1560 2.8160 6.5650 8.3206 1444.3075 Medias de los Bloques 37.25
29.17
21.17
Tabla 5 En la tabla de resultados (tabla 6) incluimos las fórmulas de las sumas de cuadrados (que es donde suele estar la dificultad de cálculo) y que son las ya vistas en los diseños factoriales. Origen
Sumas de Cuadrados
A: Factor principal Nσ 2 = (36)(2.816)2 = 285.47 MA
Ejercicios
B: Bloques igualados
2
Nσ MB = (36)(6.565)2 = 1551.41 2
2
CM 285.47
2
nΣσ g = (4)(1444.3075)
= 2 142.735 1551.57 = 775.70 2
142.735
(A-1)(B-1) = (2)(2) = 4
655.32
163.83
N - g = 36 - 9 = 27
5777.23
A-1=2
B-1=2
4
= 5777.23 Total
2 Nσ t
F 213.97 775.78 213.97
= .67
= 3.62
2
Nσ MA + Nσ MB ) = Error experimental Nσ Mg - ( N 2 Mét. x Bloques (36)(8.3206) - (258.47 + 1551.57) = 655.508 término del error
Grados lib.
27
= 163.87
213.97
= .76
= 213.97
2 = (36)(15.156) = 8629.36
Tabla 6 Los cuadrados medios del término del error se pueden calcular también directamente si hemos calculado las desviaciones típicas de los subgrupos dividiendo por N - 1, ya que son iguales a la varianza media de todos los subgrupos (de idéntico tamaño).
Otros modelos de análisis de varianza
10
3.3. Interpretación de los resultados La única F significativa significativa es la correspondiente a los bloques igualados (p <. 05); en este caso el resultado carece de interés porque ya sabíamos que los sujetos eran distintos en rendimiento; ése era precisamente el criterio para agruparlos en bloques. El interés del planteamiento estaba en verificar si algún tipo de ejercicio era más eficaz que otro independientemente del criterio de agrupación. Aun así, observando los datos, podemos ver que la media del ejercicio 3 es mayor que la de los otros dos, sobre todo para el grupo de bajo rendimiento; con más sujetos o explorando qué pasa con los de rendimiento bajo los resultados podrían ser otros. Lo que nos aporta este planteamiento es poder visualizar la posibilidad de utilizar los diseños factoriales utilizando utilizando un factor como criterio para agrupar a los sujetos y controlar así esta variable. 3.4. Diseño alternativo Una alternativa puede ser no agrupar a los alumnos en bloques según su nivel previo, sino igualarlos en cada fila. Agrupados en bloques puede haber diferencias relativamente importantes dentro de cada bloque; estas diferencias se pueden minimizar si los igualamos de tres en tres, controlando mejor el nivel previo. En la tabla 5 tenemos 12 alumnos en cada bloque de B (cuatro en cada uno de los tres niveles del factor A de ejercicios); podríamos igualarlos de manera más ajustada de tres en tres, y tendríamos tantos bloques como tríos de alumnos igualados (12 tríos). Esta alternativa puede ser mejor porque se puede hacer un igualamiento más fino y exacto, pero también puede resultar más complicado. En este caso el procedimiento de análisis adecuado sería un análisis de varianza para muestras relacionadas 10. 4. Análisis de varianza jerárquico o anidado para muestras independientes Se trata de un diseño factorial incompleto, porque no todos los niveles de un factor o criterio de clasificación se combinan con todos los niveles del otro factor. A estos diseños se les denomina anidados o jerárquicos: los niveles de un factor están anidados en los niveles del otro factor. 4.1. Cuándo nos puede interesar este planteamiento A veces no es posible combinar todos los niveles de un factor con todos los niveles del otro. Vamos a suponer, por ejemplo, que queremos comparar en satisfacción con la tarea (variable dependiente) a profesores de tres facultades de la misma universidad. Pensamos que cómo funciona el departamento al que pertenecen ( grado de cohesión, cantidad y calidad de la comunicación dentro del departamento ) puede estar influyendo en su satisfacción con la universidad. No podemos combinar facultades con departamentos porque cada facultad tiene sus propios departamentos; en este caso anidamos los departamentos en sus facultades. Otros ejemplos posibles: queremos comparar la eficacia de tres métodos, experiencias, etc., que han sido puestos en práctica en centros distintos. Puede suceder que la eficacia del método tenga que ver con cómo funciona el centro. Como no podemos combinar centros y métodos, anidamos los centros en los métodos.
10 El análisis es el mismo visto en el diseño anterior con n = 1 en cada clasificación; en EXCEL es un análisis de varianza de dos factores con una muestra por grupo. Otros modelos de análisis de varianza
11
4.2. Procedimiento 1 Exponemos dos maneras de llevar a cabo este análisis; una que sólo requiere el cálculo de medias y desviaciones típicas (varianzas); otra manera de abordarlo es haciendo dos análisis de varianza convencionales, para muestras independientes combinando los resultados de ambos análisis en una única tabla de resultados. En este ejemplo (datos ficticios, tabla 7) tenemos dos factores: el factor A es, en este ejemplo, facultad (tres facultades distintas) y el factor B departamentos (dos departamentos en cada facultad). La variable dependiente es satisfacción en la universidad; las muestras son seis profesores por departamento. departamento. Facultad A1 B1 Depart.1 22 13 3 14 7 9 11.33 (6.02)
N = 36 n=6
Dep. M B (σ) Fac. M A (σ)
Facultad A2
B2 Depart.2 19 15 11 17 12 19 15.50 (3.15)
B3 Depart.3 13 15 11 12 16 13 13.33 (1.70)
13.416 (5.235)
B4 Depart.4 21 19 17 16 15 20 18.00 (2.16)
Facultad A3 B5 Depart.5 17 7 5 6 8 9 8.67 (3.94)
15.67 (3.0368)
B6 Depart.6 16 13 11 9 10 13 12.00 (2.31) 10.33 (3.636)
Tabla 7 Hemos calculado las medias y las desviaciones típicas de los seis departamentos y de las tres facultades. El procedimiento para el análisis es varianza es casi idéntico al ya visto en los diseños factoriales (tabla 8). Cálculos Desviación típica del total (de N = 36): previos: Desviación típica de las tres medias de las facultades: Desviación típica de las seis medias de los departamentos:
Origen de la variación Factor principal, Facultades (A) Factor anidado Departamentos (B) Término del error
Total
Sumas de Cuadrados
Grados de Libertad
Nσ 2MA = (36)(2.186)2 = 172.03
A-1=2
Nσ 2MB = (36)(2.99)2 = 149.8
B-A=6-3 =3
2
∑nσ B = 448.47 2
Nσ t = (36)(4.626)2 = 770.3
B (n -1) = (6)(6 -1) = 30
σt = σMA = σMB =
4.626 2.186 2.990
Cuadrados Medios 172.03 2 = 86.015 149.8 3 = 49.933 448.47 = 14.95 30
F 86.015 14.95 = 5.75 (p < .01) 49.933 = 14.95 3.34 (p <.05)
N -1 = 36 -1 = 35
Tabla 8 Las fórmulas de las sumas de cuadrados y de los grados de libertad figuran en la misma tabla de resultados (tabla 8). Otros modelos de análisis de varianza
12
El cálculo de los grados de libertad no es idéntico al ya visto en los diseños factoriales. Como en casos semejantes (con muestras independientes), los cuadrados medios del término del error (o varianza dentro de los grupos, el denominador de la razón F) es la varianza media de los seis grupos si calculamos las varianzas dividiendo por N-1 (es otra manera de calcularlos). En este caso tanto la facultad como los departamentos (los dos factores, principal y anidado) están influyendo en la variable dependiente (satisfacción de los profesores); en qué medida influyen podríamos cuantificarlo mediante el coeficiente η2 (η2 = Suma de cuadrados parcial/Suma de cuadrados total). 4.3. Procedimiento 2 (EXCEL). Otra manera de llevar a cabo este análisis consiste en hacer dos análisis de varianza para muestras independientes (en EXCEL) 11 que nos dan casi todos los valores para completar la tabla de resultados del análisis de varianza anidado. Análisis 1. Análisis de varianza para muestras independientes con los niveles del factor A; en este ejemplo son las tres facultades con n = 12 cada una. Análisis 2. Análisis de varianza para muestras independientes con los niveles del factor B; en este ejemplo los seis departamentos con n = 6 cada uno. En la figura 1 tenemos cómo incorporar los resultados de estos dos análisis a la tabla de resultados del análisis de varianza anidado, completando algunos cálculos tal como se indica en esta tabla. Origen de la variación Factor principal, Facultades (A) Factor anidado Departamentos (B)
Sumas de Cuadrados
Grados de Libertad
Cuadrados Medios
Datos del análisis 1 correspondientes a la varianza entre grupos Suma de cuadrados entre grupos del análisis 2 menos
Los indicados en tabla 8
Suma de Cuadrados/gl
Suma de cuadrados entre grupos del análisis 1 Término del error
F = CM/CMerror En ambos casos el denominador son los CM del término del error
Datos del término del error (cuadrados medios dentro de los grupos ) de la tabla de resultados del análisis 2 Los cuadrados medios son el denominador (o término del error ) de las dos razones F
Figura 1 Para mayor claridad hacemos estos dos análisis con los mismos datos de la tabla 7 Análisis 1º En la tabla 9 tenemos los datos de las tres facultades (factor A) dispuestos para analizarlos con EXCEL.
11 Este procedimiento puede ser útil si sólo disponemos de EXCEL Otros modelos de análisis de varianza
13
Facultad A1 22 13 3 14 7 9 19 15 11 17 12 19
Facultad A2 13 15 11 12 16 13 21 19 17 16 15 20
Facultad A3 17 7 5 6 8 9 16 13 11 9 10 13
Tabla 9 En la tabla 10 tenemos la tabla de resultados del análisis 1º Origen SC GL CM F p Valor crít. F Entre grupos (A) 172,056 2 86,028 4,745 0,015 3,285 Dentro de los grupos 598,250 33 18,129 Total 770,306 35 Tabla 10 Análisis 2º En la tabla 11 tenemos los mismos datos de la tabla 7 para hacer el segundo análisis; corresponden a los departamentos (factor B) Departamento
Departamento
Departamento
Departamento
Departamento
Departamento
22 13 3 14 7 9
19 15 11 17 12 19
13 15 11 12 16 13
21 19 17 16 15 20
17 7 5 6 8 9
16 13 11 9 10 13
B1
B2
B3
B4
B5
B6
Tabla 11 Los resultados de este análisis de varianza los tenemos en la tabla 12. Origen Entre grupos Dentro grupos (error) Total
SC 322,806 447,500 770,306
Gl 5 30 35
CM 64,561 14,917
F 4,328 4,328
p 0,004
Valor crít. F 2,534
Tabla 12 Por último en la tabla 13 tenemos el análisis de varianza definitivo integrando los resultados de los dos análisis de varianza (tablas 10 y 12) siguiendo las indicaciones de la figura 1. Origen de la variación Factor principal, Facultades (A) Factor anidado Departamentos (B) Término del error
Total
Sumas de Cuadrados
172,056 322,806 - 172,056 = 150.55 447,500 770.106
Grados de Libertad
Cuadrados Medios
2 6-3 = 3
86,028 150.55/3 = 50.18
30 37
14,917
Tabla 13 Otros modelos de análisis de varianza
F 5.76 p < .01 3.36 p < .05
14
Si comparamos las tablas 8 y 13 veremos que tenemos los mismos resultados con ligeras diferencias por el redondeo de decimales, pero los valores de F son prácticamente los mismos. Si hemos seguido este proceso tenemos que consultar las tablas de la F para 2 y 30 grados de libertad (factor A, p < .01) y 3 y 30 grados de libertad (factor B, p<.05). Podemos completar la información calculando los coeficientes η2; las diferencias entre facultades explican el 22% de la varianza (172.056/770.106) y las diferencias entre departamentos departamentos explican el 19 % de la varianza (150.55/770.106). 5. Análisis de varianza jerárquico o anidado para muestras relacionadas En este análisis de varianza tenemos 1º un factor principal dividido en tres niveles, 2º un factor anidado y además 3º muestras relacionadas (las 6 filas de nuestro ejemplo, en cada fila tenemos sujetos distintos pero igualados en una o más variables que queremos controlar). 5.1. Interés del planteamiento Una posibilidad que nos ofrece este planteamiento es el de poder controlar alguna o algunas variables y ver qué influjo tienen en la variable dependiente. Vamos a suponer que queremos comprobar si existen diferencias en la actitud de los alumnos hacia las asignaturas de estadística y métodos de investigación (variable dependiente, la que medimos a los sujetos) en tres carreras o facultades. facultades. La facultad es el factor principal (factor A). Podríamos hacer un análisis de varianza unifactorial (comparando las tres facultades), pero podemos pensar que la actitud de los alumnos hacia la asignatura puede también tener que ver con dos variables más, una es el estilo del profesor, cualquiera que sea la facultad y la otra variable puede ser el rendimiento previo del alumno en estas materias o su rendimiento en general. 1. Para tener en cuenta el estilo docente del profesor escogemos escogemos a dos profesores de cada facultad; los profesores van a ser el factor anidado (factor B) porque no podemos combinar a todos los profesores con todas las facultades. Podríamos escoger más profesores, pero el número de profesores por facultad debe ser el mismo. 2. La actitud de los alumnos hacia estas asignaturas puede depender también de su nivel académico. Por eso escogemos alumnos igualados en rendimiento medio previo de manera que podamos controlar esta variable (e indirectamente otras variables asociadas al rendimiento, como pueden ser capacidad, motivación, etc.). En cada fila tenemos alumnos igualados en rendimiento previo.
En un caso real deberíamos procurar disponer de una muestra mayor de alumnos aunque esta igualación puede de alguna manera compensar el bajo número de sujetos. Tenemos por lo tanto un análisis de varianza anidado y además con muestras relacionadas . 5.2. Procedimiento 1 El procedimiento es semejante al del análisis de varianza anidado para muestras independientes, pero añadiendo una varianza (o cuadrados medios) más, la correspondiente a los alumnos (las filas). Como en el análisis anterior, veremos también como llevar a cabo este análisis haciendo análisis de varianza parciales. Nuestros datos están en la tabla 14.
Otros modelos de análisis de varianza
15
sujetos 1 2 3 4 5 6 Medias y σ Prof. (B) Medias y σ Fac. (A)
Facultad A1 B1 Prof. 1 B2 Prof. 2 22 27 24 30 25 33 27 37 24 39 26 41 24.67 34.50 (1.598) (4.958) 29.583 (6.143)
Facultad A2 B3 Prof. 3 B4 Prof. 4 24 28 26 31 29 35 27 38 28 40 30 41 27.33 35.50 (1.972) (4.717) 31.416 (5.454)
Facultad A3 B5 Prof. 5 B6 Prof. 6 26 29 29 32 31 36 32 38 30 40 31 42 29.83 36.17 (1.951) (4.487) 33.00 (4.690)
medias filas 26.00 28.67 31.50 33.17 33.50 35.17
Tabla 14 En este caso tenemos los mismos datos que en el planteamiento de un análisis de varianza anidado convencional y además las medias de las filas (de cada serie de alumnos igualados en rendimiento medio). Indicamos cómo se calculan las sumas de cuadrados y los grados de libertad en la misma tabla de resultados (tabla 15). Cálculos previos: Desviación típica del total (N = 36 datos) Desviación típica de las medias del factor principal (A, 3 medias) Desviación típica de las medias de los profesores (B, 6 medias) Desviación típica de las medias de las filas (6 medias)
Origen de la variación Factor principal
Grados de Libertad
Sumas de Cuadrados Nσ 2MA = (36)(1.396 )2 = 70.17
A -1 = 2
(facultades) (A)
2 2 Filas (sujetos Nσ Mf = (36)(3.119 ) = 350.2 igualados)
Total
Cuadrados Medios 70.17 2
= 35.1
5.637 1.396 4.349 3.119 F 35.1 4.52
=
7.76 (p < .01)
Factor anidado 2 2 2 (profesores) (B) Nσ MB -Nσ MA =(36)(4.349) -70.17 = 610.7
término del error
σt = σMA= σMB= σMf =
B-A = 6 - 3 =3 f -1 = 6 -1 = 5
2 Nσ 2t - ( N Nσ 2MA + Nσ 2MB + Nσ Mf )= = 1144- (70.17 + 610.7 + 350.2) = 113
Nσ 2t = (36)(5.637 )2= 1144
(Total menos los anteriores) = 25 N -1 = 36 -1 = 35
610.7 3
=
303.567 4.52
=
203.567
45 (p < .01)
350.2
70.04
5
=
70.4 113 25
4.52
=
15.6 (p <.01)
= 4.52
Tabla 15 La suma de cuadrados del término del error (de la varianza residual) la podemos calcular de dos maneras: a) Restando a la suma de cuadrados total las tres sumas de cuadrados precedentes (factor principal, factor anidado y filas, tal como figura en la tabla 15). Otros modelos de análisis de varianza
16
b) También podemos calcularla varianza del término del error de esta manera (puede servir de comprobación, comprobación, redondeando decimales). 1º Sumando las varianzas del factor anidado (los subgrupos de la tabla 14) y multiplicando esta suma por n: 2 2 2 2 2 2 Suma de las varianzas: 1.598 +4.958 +1.972 +4.717 +1.951 +4.487 = 77.21 Multiplicando por n: (77.21)(6) = 463.26 2 2º Restamos a esta cantidad la suma de cuadrados de las filas ( N Nσ Mf ) que tenemos en la tabla 11: 463.26-350.2 = 113 En este ejemplo ficticio tenemos que las tres fuentes de varianza (facultades, profesores y alumnos) son significativas. Que el nivel de los alumnos es fuente de diferencias podríamos darlo por hecho; posiblemente lo más relevante de estos resultados es que los profesores son la fuente más importante de varianza, como podemos ver por los coeficientes η2:
70.17 = .06 1144 610.7 2 η Profesores = = .53 1144 350.2 2 η Alumnos = = .31 1144 Una mera inspección de las medias de los profesores en este ejemplo ficticio nos indica que los mejores profesores (a juzgar por sus medias) se reparten en las tres facultades. Aunque las tres razones F son estadísticamente significativas, son estos coeficientes los que nos permiten matizar la interpretación y cuentan la historia definitiva. En este ejemplo (ficticio) la satisfacción de los alumnos con la asignatura tiene que ver sobre todo con los profesores ( η2 = .53), menos (aunque también) con el nivel previo de los alumnos ( η2 = .31) y muy poco con la facultad a la que pertenecen ( η2 = 06). 5.3 Procedimiento 2 (EXCEL) Otra manera de resolver este análisis de varianza que puede quizás resultarnos más sencilla es hacer (con una hoja de cálculo como EXCEL) tres análisis de varianza en cuyas tablas de resultados encontramos la información necesaria para completar la tabla de resultados (tabla 15) del análisis de varianza jerárquico o anidado para muestras η
2
Facultades =
relacionadas.
Estos análisis de varianza son: Análisis 1. Un análisis de varianza para muestras independientes con las tres muestras del factor principal (facultades en este ejemplo). En este caso tenemos tres grupos con n = 12 en cada caso (uniendo los dos profesores de cada facultad). Análisis 2. Un análisis de varianza para muestras independientes con las seis muestras anidadas (profesores), cada una con n = 6 en este ejemplo. Análisis 3. Un análisis de varianza para muestras relacionadas en la que tenemos en este ejemplo 6 filas (los sujetos igualados) y 6 columnas (los 6 profesores). En la figura 2 tenemos la información que nos dan estos tres análisis de varianza para completar nuestra tabla de resultados (lo que ya tenemos en la tabla 15). Otros modelos de análisis de varianza
17
Origen de la variación
Sumas de Cuadrados
Factor principal principal (facultades) (A) Factor anidado (profesores) (B) Filas (sujetos igualados) término del error
Grados de Libertad
Cuadrados Medios
Datos del análisis 1 correspondientes a la varianza entre grupos Suma de Cuadrados entre grupos del análisis 2 menos Suma de Cuadrados entre grupos del análisis 1
Como se indica en la tabla 10
Suma de Cuadrados/gl
F = CM/CMerror En ambos casos el denominador son los CM del término del error
Todos los datos de las filas de la tabla de resultados del análisis 3 (muestras relacionadas) Datos del término del error o de la interacción de la tabla de resultados del análisis 3 (muestras relacionadas) Los cuadrados medios son el término del error; el denominador de las tres razones F
Figura 2 Como en el caso anterior y para mayor claridad, hacemos los tres análisis de varianza (EXCEL). Análisis 1º. Los datos que vamos a analizar en este primer análisis (las tres facultades, muestras independientes) están dispuestos en la tabla 16 (hemos juntado los datos de los dos profesores de cada facultad que figuran en la tabla 14) Facultad A1 22 24 25 27 24 26 27 30 33 37 39 41
Facultad A2 24 26 29 27 28 30 28 31 35 38 40 41
Facultad A3 26 29 31 32 30 31 29 32 36 38 40 42
Tabla 16 En la tabla 17 tenemos los resultados de este análisis de varianza apara muestras independientes. Origen
Entre grupos Dentro de los grupos Total
SC
Gl
CM
70,167 1073,833 1144
F
p
F crít.
2 35,083 1,078 0,352 3,285 33 32,540 35 Tabla 17 Análisis 2º En este análisis de varianza para muestras independiente tenemos a los 6 profesores; datos en la tabla 18
Otros modelos de análisis de varianza
18
B1 Prof. 1 22 24 25 27 24 26
B2 Prof. 2 27 30 33 37 39 41
B3 Prof. 3 24 26 29 27 28 30
B4 Prof. 4 28 31 35 38 40 41
B5 Prof. 5 26 29 31 32 30 31
B6 Prof. 6 29 32 36 38 40 42
Tabla 18 La tabla 19 es la tabla de resultados de este análisis de varianza. Origen
SC
Entre grupos Dentro de los grupos Total
Gl
CM
F
p
F crít.
680,667 463,333 1144
5 136,133 8,814 0,000 2,534 30 15,444 35 Tabla 19 Análisis 3º Los datos son los mismos de la tabla 18; pero en este caso se trata de muestras relacionadas (en cada fila sujetos igualados). Los resultados los tenemos en la tabla 20 Origen
SC
Gl
CM
F
p
F crít.
Filas Columnas Error Total
350 680,667 113,333 1144
5 5 25 35
70 136,133 4,533
15,441 30,029
0,000 0,000
2,603 2,603
Tabla 20 Ahora nos queda integrar en la tabla de resultados final tabla 21 los resultados de estos tres análisis de varianza siguiendo las indicaciones de la figura 2Origen de la Grados de Cuadrados Sumas de Cuadrados F variación Libertad Medios Factor principal principal 7.74 (facultades) (A) 70,167 2 35,083 p < .01 Factor anidado 680.667- 70.167 = 610.5 6-3 = 3 203.5 45 (profesores) (B) p < .01 Filas (sujetos 15,441 igualados) 350 5 70 p < .01 término del 4.53 113,333 25 error Total 1144 35 Tabla 21 La fila correspondiente al total la podemos completar sumando las correspondientes columnas. Salvo pequeñas diferencias debidas al redondeo de decimales, los resultados son los mismos que hemos visto en la tabla 15. Si hemos seguimos este procedimiento vamos a las tablas de la F para ver los valores de p (probabilidad) (probabilidad) correspondiente: Factor A, grados de libertad 2 y 25, Factor B, grados de libertad 3 y 25 y filas ( sujetos igualados ), grados de libertad 5 y 25. Las tres fuentes de varianza son estadísticamente significativas pero su importancia es muy desigual como ya hemos visto en los coeficientes coeficientes η2.
Otros modelos de análisis de varianza
19
6. Análisis de varianza: diseños factoriales (2x2) para muestras relacionadas 6.1. Interés del planteamiento Como en otros casos, este planteamiento nos permite controlar variables que pueden contaminar los resultados y oscurecer su interpretación. interpretación. Este modelo de análisis de varianza es el clásico diseño factorial con dos criterios de clasificación pero con una modalidad nueva: se trata de muestras relacionadas, relacionadas, es decir, los sujetos de cada fila (tal como se presentan los datos en la tabla 22) están igualados en una variable que se quiere controlar. 6.2. Procedimiento A partir de medias y desviaciones típicas, el procedimiento es algo más complejo que otros planteamientos, planteamientos, pero no lo es tanto si disponemos bien los datos (además disponemos al menos de un programa en Internet indicado el apartado correspondiente) correspondiente) 12. Lo explicamos con un ejemplo (tabla 22) que conviene tener a la vista. Tenemos a los sujetos clasificados según dos factores (en la parte izquierda de la tabla en las que están los datos obtenidos). 1º Un factor A ( facultad en este ejemplo) dividido en este caso en dos niveles (por ejemplo Facultad de Ciencias o Facultad de Letras); 2º Un factor B también con dos niveles que se combinan con los dos niveles del factor A; este factor B puede ser el haber estudiado previamente en un centro privado o público. filas:
grupos igualados
1 2 3 4 5 Med. y σ de AB
datos en la Facultad A 1 datos en la Facultad A 2 A1B1 6 12 16 20 22 15.2 (5.74)
A1B2 2 6 8 7 13 7.2 (3.54)
A2B1 10 11 13 14 15 12.6 (1.85)
A2B2 4 7 6 12 10 7.8 (2.856)
Medias de las filas (Mf) MfA1 4 9 12 13.5 17.5
MfA2 7 9 9.5 13 12.5
Medias en A: MA1 MA2 = 11.2 = 10.2
MfB1 8 11.5 14.5 17 18.5
MfB2 3 6.5 7 9.5 11.5
Mft 5.5 9 10.75 13.25 15
Medias en B: MB1 MB2 = 13.9 = 7.5
Tabla 22 Además tenemos muestras relacionadas, con sujetos igualados en alguna variable que queremos controlar porque puede afectar a la variable dependiente (por ejemplo capacidad intelectual medida con un test o rendimiento previo ). Tenemos por último la variable dependiente que hemos medido, que en este caso puede ser satisfacción con la universidad. 12
Estamos exponiendo estos métodos tal como se pueden llevar a cabo con una simple calculadora con programación estadística o con un ahoja de cálculo como EXCEL (para calcular medias y desviaciones). Sobre todo con pocos sujetos (frecuente en diseños experimentales) son procedimientos sencillos y factibles. En la medida en que el diseño es más complejo y hay más operaciones por medio, como es éste el caso y también el del análisis de varianza siguiente, es preferible optar por un programa informático (como el SPSS, siempre que sea posible), aun así pensamos que en este caso (como en todos los demás) el disponer de ejemplos resueltos paso a paso ayuda a entender lo que estamos haciendo y también a entender mejor el output de un programa informático. Ya hemos mencionado que este diseño lo tenemos además en un programa de Internet que indicamos al final. Otros modelos de análisis de varianza
20
Las filas o grupos igualados pueden ser sujetos individuales, o también podrían ser medias de clases o grupos. Lo que deseamos comprobar es si el factor A, o el factor B, o una combinación de ambos, producen (o con más rigor están asociados a ) efectos significativos en la variable dependiente y esto con independencia de la variable que queremos controlar y que nos ha servido para igualar a los sujetos de cada fila. Los datos originales son los de las cuatro columnas a la izquierda de la tabla: A 1B1, A1B2, A2B1 y A2B2. En cada una de las cinco filas tenemos sujetos distintos pero igualados en la variable que deseamos controlar (capacidad intelectual o rendimiento previo en este ejemplo). Los cálculos necesarios para resolver el análisis de varianza son más, pero el proceso es sencillo si disponemos de un modelo a la vista. Es importante tener los datos bien dispuestos (como en la tabla 22) para evitar confusiones. En la parte izquierda de la tabla tenemos los datos originales dispuestos por columnas; debajo de cada columna tenemos las medias y desviaciones típicas. En la parte derecha de la tabla (separada con una doble línea) tenemos las medias de las filas:
en A (MfA1 y MfA2) en B (MfB1 y MfB2) en A+B (toda la fila, Mft) Por ejemplo: la media de la primera fila de A 1 (MfA1) es igual a (6 + 2)/2 = 4 la media de la primera fila de B 2 (MfB2) es igual a (2+4)/2 = 3 la media de la primera fila de A+B (Mft) es igual a (4+7+8+3)/4 = 5.5 También calculamos las medias (M) de A (MA 1 y MA2) y las medias de B (MB 1 y MB2), que están puestas debajo de la parte derecha de la tabla; nos basta calcular la media de las medias de las filas (son las medias de las columnas correspondientes, tal como está en la tabla 22). Tenemos por lo tanto estos datos: las medias de las filas en A1 y en A2 ( MfA1 y MfA2) las medias de las filas en B1 y en B2 ( MfB1 y MfB2) las medias totales de las filas (Mft) las medias y desviaciones de cada columna (A1B1, A1B2, A2B1 y A2B2) las medias de A1 y A2, y las medias de B1 y B2 Antes de calcular las Sumas de Cuadrados, calculamos las desviaciones típicas de los totales y de todos los grupos de medias (también podemos calcular directamente las varianzas, que es lo que vamos a utilizar):
Otros modelos de análisis de varianza
21
Desviación típica
Origen Variación
σt de los totales (N = 20) σMAB de las medias de AB (4 medias) σMA de las medias de A (2 medias) σMB de las medias de B (2 medias) de las medias totales de las filas (5 medias)σMft de las medias de las filas de A (10 medias) σMfA de las medias de las filas de B (10 medias) σMfB
2
Factor A
Nσ MA = (20)(.5)2 = 5
Factor B
Nσ MB = (20) (3.2)2 = 204.8
2
2
Nσ MAB - (a+ b) Interacción: 2 = (20) (3.336) - (5 + 204.8) AxB = 12.8 filas
2
Nσ Mft = (20)(3.314)2 = 219.65 2
error de A:
A x f
Grados de Libertad
Sumas de Cuadrados
A -1 = 2-1 = 1
a b
c
d
Nσ MfA - (a + d) e 2 = (20) (3.607) - (5 + 219.65)= 35.56
B -1 = 2 -1 =1
Cuadrados Medios 5 =5 1 204.8 1 = 204.8 12.8
(A -1)(B -1) =1
1 = 12.8
F CM A CM Axf CM B
=
5 8.9
=
= .56
204.8
CM Bxf 1.7 = 120.47 CMAxB 12.8 = CM AxBxf 5.9 = 2.17
219.65
(f -1) = (5 -1) =4 (A -1)(f -1) = (2 -1)(5 -1) = 4
= 5.041 = 3.336 = 0.50 = 3.20 = 3.314 = 3.607 = 4.646
4 = 54.91 35.56 =8.9 4
2
Nσ MfB - (b + d) f (B-1)(f -1) = error de B: 2 = (20)(4.643) - (204.8+219.65) B x f (2 -1)(5 -1) = 4 = 6.7 2 (A -1)(B -1)(f error de AxB: Nσ t - (a + b + c + d + e + f) = 1) A x B x f 23.78 g = (2-1)(2-1)(5-1) =4 2 2 N -1 = 20 -1 Nσ t =(20)(5.041) = 508.23 Total = 19
6.7 4 = 1.7 23.74 4 = 5.9
Tabla 23 En la tabla de resultados (tabla 23) tenemos cómo calcular calcular las sumas de cuadrados y los grados de libertad. Para simplificar las fórmulas identificamos con una letra encerrada en un recuadro las distintas sumas de cuadrados. Las tres varianzas principales (o cuadrados medios) que nos interesan son las correspondientes a los dos factores, A y B, y a la interacción AxB: nos interesa verificar en qué medida influyen en la variable dependiente. Además calculamos las varianzas varianzas que van a ser los denominadores (o término del error) para calcular las tres razones F de interés; estos denominadores son distintos en cada razón F (como puede observarse en la tabla 23).
Otros modelos de análisis de varianza
22
La única fuente de diferencias significativa es la que corresponde al factor B (en este ejemplo ficticio, el haber estudiado en un centro privado o público).
6.3. Programa en Internet Este análisis lo tenemos disponible en un programa de Internet: Lowry, Richard, VassarStats: Web Site for Statistical Computation,Vassar College, Poughkeepsie, Poughkeepsie, NY, USA; http://fac http://faculty.vassar.edu/ ulty.vassar.edu/lowry/VassarSta lowry/VassarStats.html ts.html En el menú de la izquierda en ANOVA buscamos Two-Factor ANOVA with Repeated Measures on Both Factors Para utilizar este programa los datos hay que introducirlos tal como están presentados en la tabla 24 aunque los datos pueden quedar más claros inicialmente tal como están en la tabla 22 en la que en cada fila están igualados los sujetos. A1 A2 B1
B2
6 12 16 20 22 2 6 8 7 13
10 11 13 14 15 4 7 6 12 10
Tabla 24 Si comparamos estos datos con los de la tabla 22 caeremos en la cuenta de que los primeros sujetos de cada subgrupo en la tabla 24 (con puntuaciones de 6, 2 10 y 4) corresponden a la primera fila de la tabla 22, y así sucesivamente. 7. Análisis de varianza: diseños mixtos 7.1. Muestras independientes y muestras relacionadas en el mismo análisis Esta modalidad de análisis de varianza corresponde a un tipo de diseños llamados mixtos porque se combinan en el mismo planteamiento muestras independientes y muestras relacionadas. Es un diseño útil cuando tenemos dos (o más) grupos en los que los sujetos son medidos en ocasiones distintas o en variables distintas. El ejemplo presentado (tablas 25 y 26) sugiere la utilidad que puede tener este análisis 13. Tenemos dos factores o criterios de clasificación: 1º Un factor es la pertenencia a un grupo (dos o más muestras independientes). En el ejemplo que presentamos los dos grupos son hombres y mujeres, por lo que no hay asignación aleatoria; pero podría haberla si los dos grupos correspondieran a dos métodos de enseñanza, dos experiencias, etc. En la presentación habitual de estos cuadros, lo que tenemos es que las filas están agrupadas en dos o más bloques. 2º En el otro factor (las columnas, en la presentación habitual de los datos) tenemos medidas repetidas en diversas ocasiones o circunstancias; en este caso tenemos por lo tanto 13 Si la asignación de los sujetos a los grupos es aleatoria estos diseños se denominan en inglés split-plot . Estos diseños se utilizaron al comienzo en agricultura; plot es un terreno y split significa dividido (se parcela un terreno, por ejemplo para experimentar con variedades variedades de semillas y de fertilizantes). Otros modelos de análisis de varianza
23
muestras relacionadas. En este factor los sujetos pueden ser medidos en lo mismo pero en diversas dosis, o en tiempos o circunstancias distintas, etc.; pueden ser también respuestas idénticas (importancia, eficacia, gusto, etc.) a distintas preguntas del mismo ámbito como en el ejemplo que nos sirve para introducir este análisis de varianza 14. Como vamos a ver en el ejemplo propuesto para explicar el procedimiento, vamos a tener a los mismos sujetos en las filas, como en el caso común de muestras relacionadas, lo que sucede es que estas filas o sujetos pertenecen a más de un grupo. Vamos a explicar el procedimiento con un ejemplo resuelto 15 que nos permite seguir y entender el proceso paso a paso e interpretar los resultados. Aunque puede resultar laborioso, en el apartado siguiente indicamos un programa de Internet con el que se puede hacer rápidamente este análisis 16. Factor A: género; tenemos dos muestras independientes (sujetos físicamente distintos), hombres y mujeres (un factor con dos niveles) Factor B: posibles causas o explicaciones de la pobreza (cuatro niveles) 17. La variable dependiente (la que hemos medido) es la importancia que los sujetos atribuyen a esas posibles causas de pobreza. Se trata de muestras relacionadas porque los mismos sujetos responden a las cuatro atribuciones. Otros ejemplos con el mismo esquema: factor A tratamientos tratamientos (ejercicios, métodos, etc., o medidas en el mismo rasgo a los mismos sujetos pero en tiempos distintos) y factor B tipos de personas, grupo experimental y de control, etc. El esquema es por lo tanto el de la tabla 25 Factor A: importancia de las atribuciones de la pobreza A1 Familia A2 Suerte A3 Esfuerzo A4 Salario bajo Factor B género
(muestras independientes)
B1 hombres B2 mujeres
Tabla 25 Vamos a ver dos procedimientos para llevar a cabo este análisis de varianza, semejantes a los ya vistos en otros planteamientos; planteamientos; el procedimiento 1 uno basado solamente en el cálculo de medias y desviaciones pero que puede resultar bastante laborioso, y el procedimiento 2, que puede ser más sencillo, combinando varios análisis de varianza (para muestras independientes y muestras relacionadas) que se hacen muy fácilmente en EXCEL. Mencionamos además al final algún programa de Internet.
14 En Calvo (1993:163) pueden verse alguna sugerencia para utilizar este diseño en planteamientos de investigación educacional. 15 En este ejemplo tomamos los datos de Girden (1992:41), no el modo de resolverlo aunque puede comprobarse que los resultados son los mismos. Pueden verse otro ejemplo resuelto en Calvo (1993), con los cálculos de las sumas de cuadrados expuestos con claridad según el método tradicional. 16 Estos programas no nos suelen dar los coeficientes η2 u otros semejantes que son importantes en la interpretación final. Es útil disponer de un ejemplo resuelto de manera completa. 17 El significado de estas atribuciones no tiene mayor importancia en este momento pues se trata de explicar el procedimiento; por familia familia se entiende factores de educación familiar, como no motivar para el éxito y esfuerzo se refiere genéricamente a factores internos, como una mala administración del dinero (Girden, 1992). Una puntuación más baja significa mayor importancia (en este ejemplo, tomado de una investigación real). Otros modelos de análisis de varianza
24
7.2. Procedimiento 1 Con los datos de la tabla 25 se podría pensar en hacer dos análisis de varianza por separado, uno para cada grupo (en cada caso muestras relacionadas), o si tuviéramos más de dos grupos (en el factor B) podríamos hacer un análisis de varianza unifactorial por cada variable para comparar los grupos en cada columna (o una t de Student por variable si sólo hay dos grupos como en este caso). No es éste el mejor procedimiento porque aumentan las probabilidades de error al no aceptar la Hipótesis Nula, sin embargo el plantear análisis de varianza unifactoriales puede estar indicado en algunas situaciones: a) para analizar alguna variable dependiente conceptualmente independiente de las demás (por ejemplo, importancia que se da a la familia), b) para comparar nuestros resultados con otros análisis de varianza unifactoriales unifactoriales (en los que, por ejemplo, se ha comparado en otros grupos la importancia que se da al esfuerzo ), o c) para hacer un análisis meramente exploratorio y prescindir de alguna variable (de las que figuran en el encabezado de las columnas) que no va a dar juego si en el análisis unifactorial obtenemos una razón F que no llega a 1) 18. Si en cada clasificación (tabla 23, tenemos 8 subgrupos) tuviéramos distintos sujetos, tendríamos un diseño factorial (2x4) para muestras independientes, pero lo que tenemos es a los mismos sujetos en las filas. En estos diseños hay que controlar el posible efecto del orden cuando los mismos sujetos pasan por las distintas condiciones o responden a las distintas preguntas; el orden puede no afectar a las respuestas (no siempre afecta), pero hay que tener presente esta posibilidad. El influjo del orden puede ser importante cuando las columnas son actividades o situaciones por las que pasan los sujetos en tiempos distintos, pero no es tan importante cuando las columnas son simples preguntas (como en este caso). En la tabla adjunta (tabla 26) tenemos las puntuaciones de 10 sujetos (5 hombres y 5 mujeres) valorando la importancia de las cuatro atribuciones o posibles causas de la pobreza (o riqueza). Además tenemos en la misma tabla 26: a) Las medias y desviaciones de cada subgrupo (8 subgrupos) b) La media de cada sujeto (de cada fila) (10 filas) c) La media y la desviación de cada columna (4 columnas); las desviaciones de las columnas (atribuciones, factor A) no nos van a hacer falta, pero son útiles con fines informativos. d) Las medias de los dos grupos (dos medias; basta calcular en cada caso la media de las medias de las filas de B 1 y de B2) Además tenemos que:
18 Puede verse una explicación más amplia en Huberty y Morris (1987). Una razón más cuestionable que aducen estos autores para llevar a cabo simples análisis de varianza unifactoriales es cuando el investigador no entiende bien (y no va a interpretar bien) estos análisis más complejos (when the researcher is multuivariately naive). Ya hemos indicado en otra nota que el ver ejemplos resueltos de análisis de varianza más complejos ayuda también a entender los resultados que nos dan los programas informáticos, por otra parte y como explicamos en otro apartado, este diseño se puede analizar en EXCEL mediante análisis de varianza más simples y además también lo tenemos resuelto en un programa de Internet que indicamos al final. Otros modelos de análisis de varianza
25
N= n= A= B=
B1 hombres
B2 mujeres
medias y σ atribuciones
40 (número dedatos, no número de sujetos) 5 (número de sujetos en cada clasificación). clasificación ). 4 (número de atribuciones, atribuciones , o número de niveles en A) 2 (número de grupos, o número de niveles en B). A1
A2
A3
A4
familia
suerte
esfuerzo
salario bajo
48 46 45 37 45 M = 44.2 σ = 3.763 28 32 35 39 31 M = 33.0 σ = 3.742 MA1 = 38.6 σ = 6.741
31 34 37 39 34 M = 35.0 σ = 2.757 17 18 19 16 15 M = 17.0 σ = 1.414 MA2 = 26.0 σ = 9.263
24 25 27 30 29 M = 27 σ = 2.28 19 20 22 19 20 M = 20.0 σ = 1.095 MA3 = 23.5 σ = 3.93
29 31 35 38 32 M = 33 σ = 3.162 20 22 24 22 22 M = 22.0 σ = 1.265 M A4 = 27.5 σ = 6.00
medias de los sujetos 33 34 36 36 35 21 23 25 24 22
Media B1 = MfB1 = 34.8
Media B2 = MfB2 = 23.0
Tabla 26 Nos interesa conocer qué fuentes de variabilidad son significativas (generan diferencias por encima de lo que se puede esperar por azar). Esta variabilidad viene expresada por las varianzas correspondientes a estas tres fuentes de diversidad: a) La varianza correspondiente a los grupos, factor B (¿Un grupo da más importancia en atribuciones?). general que el otro a las distintas atribuciones?). b) La varianza correspondiente a las atribuciones, factor A (¿Hay diferencias en general en la importancia que se da a las distintas atribuciones?). atribuciones?). c) La varianza correspondiente a la interacción (¿Difieren los grupos en la importancia que dan precisamente a algunas atribuciones?). atribuciones?). Además nos interesan las varianzas que expresan la variabilidad aleatoria (término del error), que van a ser el denominador de la razón F, y que no va a ser el mismo para las tres varianza anteriores. El proceso es más complejo que en otros planteamientos de análisis de varianza, pero procediendo con orden y haciendo los cálculos previos oportunos, no resulta complicado. Utilizando nuevos símbolos para los distintos cálculos parciales se facilita el poder seguir el proceso. Cálculos previos:
Para simplificar el proceso vamos a proceder de esta manera: 1º Calculamos una serie de varianzas (del total y de conjuntos de medias, como en otros planteamientos) 2º Multiplicamos estas varianzas por N (número de datos = 40) y en un caso por 5, (número de sujetos en cada clasificación; símbolo símbolo f en la última fila de la tabla18).
Otros modelos de análisis de varianza
26
multiplicada por
Varianzas
Varianza de los totales (las 40 puntuaciones)
σ 2t
Varianza de las medias de A (4 medias)
σ MA = 33.405
Varianza de las medias de B (2 medias)
σ MB = 34.81
Varianza de las medias de AB (8 subgrupos)
σ MAB =
Varianza de las medias de todas las filas (10 filas)
σ Mf =
Suma de las varianzas de los 8 subgrupos AB
Σσ AB =
=
79.09
2 2
2 2
2
72.12 36.49 55.75
=
símbolo
N = 40
3163.6
a
N = 40
1336.2
b
N = 40
1392.4
c
N = 40
2884.8
d
N = 40
1459.6
e
n=5
f
278.741
Tabla 27 A estos productos les designamos con una letra (tabla 27) para clarificar las fórmulas de las sumas de cuadrados puestas en la tabla 28. Estos cálculos no ofrecen especial dificultad una vez que tenemos calculadas todas las medias posibles (lo que vamos a utilizar en las sumas de cuadrados son las varianzas de los distintos grupos de medias, como venimos haciendo hasta ahora). Método alternativo para calcular la varianza total
Si tenemos muchos sujetos, nos puede resultar más sencillo calcular la varianza de los totales a partir de 1º la media total (que es la media de las medias de cualquier conjunto de grupos que comprenda a todos los sujetos) , y 2º las medias y desviaciones típicas, también de cualquier conjunto de grupos que comprenda a todos los sujetos. En este caso y viendo lo que tenemos ya calculado en la tabla de datos, tenemos dos posibilidades: posibilidades: utilizar las medias y desviaciones o de los ocho subgrupos (combinaciones AB) o de los cuatro niveles de A; en ambos casos tenemos incluidos a todos los sujetos. Aquí es más cómodo utilizar los datos de los cuatro niveles de A porque son menos (más sencillo sería utilizar las medias y desviaciones de los niveles de B porque son solamente dos, pero no tenemos calculadas las desviaciones de B 1 y B2). Utilizamos Utilizamos la fórmula que tenemos en el anexo III con los datos de los cuatro niveles de A (k = 4). La media total es 28.9 2 σt
=
ΣM
2
+ Σσ 2 k
-
2 Mt
=
38.6 2
2
2
2
2
2
2
+ 6.741 + 26 + 9.263 + 23.5 + 3.93 + 27.5 + 6
4
2
2
- 28.9 = 79.08
Con estos cálculos previos 19 pasamos con facilidad a calcular las sumas de cuadrados . En la tabla de resultados r esultados (tabla 28) figuran: a) Las fórmulas de las sumas de cuadrados; las letras minúsculas corresponden a los cálculos previos de la tabla precedente (tabla 26); b) Cuáles son los grados de libertad en cada caso. En los dos factores principales y su interacción los grados de libertad son los que ya estamos acostumbrados a ver en otros planteamientos: A-1; B-1 (A y B = número de niveles en cada factor); y (A-1)(B-1); los
19 Recordamos que utilizando una calculadora con programación estadística, la rápidamente con la función programada Σx2 Otros modelos de análisis de varianza
suma
del numerador se calcula
27
grados de libertad de los dos términos del error son algo distintos. Con n simbolizamos el número de sujetos en cada clasificación (n = 5 en este ejemplo). c) Los cuadrados medios (o varianzas; dividimos las sumas de cuadrados por los grados de libertad) están simbolizados por una letra mayúscula en un recuadro, para visualizar con más facilidad cuál es el denominador de la razón F en cada caso: en el factor relacionado y en la interacción puede observarse que el denominador de F es distinto que en el factor con muestras independientes independientes (pertenencia a un grupo). La suma de cuadrados total no es realmente necesaria para completar la tabla, pero es útil tenerla calculada para hacer comprobaciones, y además nos servirá luego para calcular los coeficientes ω2. Origen de la variación
Sumas de Cuadrados
Grados de Libertad
Grupos, Factor B (muestras independientes) Dentro de los grupos; (error del factor B)
Tratamiento, Factor A (muestras relacionadas)
Interacción, A x B Tratamiento x dentro de los grupos (error de A y A x B) Varianza total
B-1=2–1=1
c = 1392 1392.4 .4
Cuadrados Medios 1392.4 (= G )
F
[G ] 1392.4 = [H ] 8.4 165.762
(B ) (n -1) = (2)(5 -1) =8
8.4 (= H )
A-1= 4 - 1= 3
445.4 (= I )
[I] = [K ]
d - ( b + c )= 2884.8 - (1336.2 + 1392.4) = 156.2
(A-1)(B-1) = (4-1)(2-1) = 3
52.067 (= J )
[J ] = [K ]
c + f - e = 1392.4 + 278.741 - 1459.6 = 211.54
(A-1)B(n-1) = (3)2(51) = (3)(8) = 24 (n)(A)(B) -1 = (5)(4)(2) -1 = 39
8.814 (= K )
e - c = 1459. 1459.66 - 1392. 1392.44 = 67.2 67.2
b = 1336 1336.2 .2
a = 3163 3163.6 .6
=
445.4 8.814
=
50.53
52.067 8.814
=
5.907
Tabla 28 Sobre esta tabla 28 hacemos estas observaciones: 1. Si nos fijamos en lo que hemos hecho, el denominador (término del error) del factor B (grupos independientes) es distinto del que utilizamos en el factor A (muestras relacionadas) relacionadas) y en la interacción AxB. Ambos denominadores, con algunos ajustes, reflejan la variabilidad normal dentro de los grupos. 2. Cabe hacer distintas comprobaciones: a) Podemos comprobar que las sumas de cuadrados y grados de libertad del total es igual a la suma de todos los precedentes. b) Caben otras comprobaciones y otras maneras de llegar a las mismas sumas de cuadrados; por ejemplo: SCAxB = a - ( b + c + f ) = 3163 3163.6 .6 - (133 (1336. 6.22 + 1392 1392.4 .4 +278 +278.7 .741 41)) = 156. 156.22 SCtratam.x dentro = a - (SCA + SCAxB + e ) = 3163.6 - (1336.2 + 156.2 +1459.6) = 211.6 211.6
Otros modelos de análisis de varianza
28
3. Si utilizamos un programa de ordenador podremos reconocer todos los datos de la tabla de resultados, pero es posible que nos encontremos con otras dos sumas de cuadrados con sus correspondientes grados de libertad pero sin cuadrados medios y sin razón F. Aquí no figuran en la tabla porque no son necesarios, pero sí conviene saber de qué se trata para reconocer los resultados que nos puede dar el ordenador. Se trata de: Suma de Cuadrados entre sujetos sujetos = e = 1459.6 1459.6 (= N x varianza de las medias de las filas, tabla 27) Suma de Cuadrados dentro de los los grup grupos os = a - e = 1704 1704 Podemos ver con facilidad que se trata de las dos grandes sumas parciales de cuadrados (separadas por una línea doble en la tabla 28) en las que se divide la suma de cuadrados total: 1392.4+67.2 = 1336.2+156.2+211.54 1336.2+156.2+211.54 =
1459.6 1703.94 Suma de cuadrados total = 3163.54 Lo mismo sucede con los grados de libertad: 1+8+3+3+24 = 39
Interpretación:
Factor B: F = 165.762, con 1 y 8 grados de libertad, p < .01 Factor A: F = 50.067, con 3 y 24 grados de libertad, p < .01 Interacción AxB: F = 5.907, con 3 y 24 grados de libertad, p < .01 Tanto la pertenencia a uno u otro grupo, como las distintas atribuciones y la interacción entre grupo y atribución están relacionadas con la variable dependiente y explican la varianza total. Como se trata de muestras relacionadas y la condición de esfericidad no suele cumplirse20 estas probabilidades deben considerarse más bien liberales por lo que respecta al factor relacionado (el A) y a la interacción. Con un criterio más estricto nos fijamos en los grados de libertad más conservadores (1 y N-1, ó 1 y 39) y necesitamos un valor de F de 7.71 (para p<.01); en este caso la interacción deja de ser significativa. significativa. Por lo que respecta a los grupos (factor B), como sólo hay dos grupos no hay necesidad de hacer comparaciones específicas, está claro que uno da más importancia a las atribuciones que el otro. Si a cada sujeto le sumamos todas sus puntuaciones a todas las atribuciones y hacemos un contraste de medias entre hombres y mujeres llegaremos al mismo resultado (teniendo en cuenta que cuando comparamos dos grupos t 2 = F). Las atribuciones (factor A) también difieren entre sí en la importancia asignada por los sujetos; lo más claro es la mucha importancia que se da a la familia (en los dos grupos) y la poca, en términos relativos, al esfuerzo . El que la interacción sea significativa quiere decir que al menos algunas medias entre niveles de la misma variable son significativamente distintas en uno de los niveles de la otra variable21. Por simple inspección de los datos vemos que los varones dan mucha más importancia a todas las atribuciones que las mujeres (la diferencia mayor está en suerte). 20 Se puede repasar lo dicho sobre este tema en el análisis de varianza para muestras relacionadas 21 Puede verse en Girden (1992) todo lo referido a los contrastes posteriores en este tipo de diseños. Otros modelos de análisis de varianza
29
Aunque las tres fuentes de diferencias son significativas, no todas tienen la misma importancia. Podemos comprobar el grado de asociación entre las tres varianzas y la variable dependiente, por medio de los coeficientes η2 y ω2: 1336.2 2 η del Factor A = = .42 3163.6 η
2
1392.4 = 3163.6
del Factor B =
.44
156.2 = .05 3163.6 En términos comparativos la importancia de la interacción es mucho menor: pesan más las diferencias entre los grupos (en todas las atribuciones) y entre las atribuciones (uniendo los dos grupos) que las diferencias específicas entre los grupos en alguna atribución en especial o entre las atribuciones en uno de los grupos. η
2
de la interacción AxB=
También podemos calcular los coeficientes ω2, que serán algo más bajos que los coeficientes η2. Para calcular estos coeficientes necesitamos conocer los cuadrados medios entre sujetos, que no hemos calculado antes: 2 Nσ Mf Cuadrados Medios entre sujetos = 1 número número total total de sujetos sujetos - 1 El numerador ya lo hemos hemos calculado calculado antes en e (tabla 27) y el denominador denominador es 10 -1, por lo que CMentre sujetos =
1459.6 =162.178 10 − 1
La fórmula general de ω2 en estos casos es la siguiente: 2
ω
=
SCde interés -(A-1)(B-1)(CM tratamiento x dentro ) SCto SCtota tall + CMentre sujetos + (nxBxC (nxBxCM M tratamiento x dentro )
2
La fórmula queda más clara al verla calculada en los tres coeficientes de interés e identificar identificar estos valores al compararlos con los que están en la tabla de resultados (tabla 28): 2
del Factor A =
1336.2 − (4 − 1)(2 − 1)(8.814) 1309.758 = = 3163.6 + 162.178 + (5)(2)(8.814) 3413.918
.38
2
del Factor B =
1392.4 − (4 − 1)(2 − 1)(8.814) 1357.144 = = 3163.6 + 162.178 + (5)(2)(8.814) 3413.918
.40
2
de la interacción AxB =
156.2 − (4 − 1)(2 − 1)(8.814) 120.944 = = 3163.6 + 162.178 + (5)(2)(8.814) 3413.918
.04
ω
ω
ω
Los resultados son muy parecidos a los vistos con el coeficiente coeficiente Otros modelos de análisis de varianza
η
2
.
30
7.3. Procedimiento 2 (EXCEL). Como en otros casos podemos combinar los resultados de los análisis de varianza más sencillos que podemos hacer muy fácilmente en EXCEL. Con los datos de que disponemos (en la tabla 26) hacemos cuatro análisis de varianza, tres para muestras independientes y uno para muestras relacionadas. relacionadas. Análisis 1º, análisis de varianza para muestras independientes con los datos de las filas (factor B); en este caso se trata de dos muestras; hombres y mujeres. Aunque se trata solamente de dos grupos no utilizamos la t de Student porque nos interesa la información de la tabla de resultados de este análisis de varianza (tabla 29) Tabla de resultados del análisis 1º Origen SC GL Entre Entre grupos grupos 1392,4 1392,4 1 Dentro de los grupos 1771,2 38 Total 3163,6 39
CM F 1392,4 1392,4000 000 29,873 29,87311
p 0,0000 0,0000
F crít. 4,0982 4,0982
46,6105
Tabla 29 Análisis 2º, análisis de varianza para muestras independientes con los datos de las columnas (factor A); uniendo los niveles del factor B (hombres y mujeres) en un solo grupo; tenemos por lo tanto cuatro grupos (tantos como columnas). Para visualizar mejor lo que estamos haciendo ponemos los datos de este análisis en la tabla 30 (tomados de la tabla 26). A1
A2
A3
A4
familia
suerte
esfuerzo
salario bajo
48 46 45 37 45 28 32 35 39 31
31 34 37 39 34 17 18 19 16 15
24 25 27 30 29 19 20 22 19 20
29 31 35 38 32 20 22 24 22 22
Tabla 30 Los resultados en la tabla 31
Tabla de resultados del análisis 2º Origen SC Entre grupos 1336,2 Dentro de los grupos 1827,4 Total 3163,6
GL CM F p F crít. 3 445,4000 8,7744 0,0002 2,8663 36 50,7611 39 Tabla 31 Análisis 3º, análisis de varianza para muestras independientes con los datos de las columnas (factor A); pero sin unir los niveles del factor B ; en este análisis tendremos por lo ocho grupos (cuatro de hombres, B 1, y cuatro de mujeres, B 2). En la tabla 32 ponemos los datos para mayor claridad; reorganizamos la presentación de los datos de la tabla 26.
Otros modelos de análisis de varianza
31
A1
Datos de los hombres (B 1) A2 A3
A4
A1
Datos de las mujeres (B2) A2 A3
A4
familia
suerte
esfuerzo
salario bajo
familia
suerte
esfuerzo
salario bajo
48 46 45 37 45
31 34 37 39 34
24 25 27 30 29
29 31 35 38 32
28 32 35 39 31
17 18 19 16 15
19 20 22 19 20
20 22 24 22 22
Tabla 32 Los resultados de este análisis de varianza en la tabla 33. Tabla de resultados del análisis 3º Origen SC GL CM F p F crít Entre grupos 2884,8 7 412,1143 47,3015 0,0000 2,3127 Dentro de los grupos 278,8 32 8,7125 Total 3163,6 39 Tabla 33 Análisis 4º, análisis de varianza para muestras relacionadas con todos los sujetos (uniendo los sujetos del factor B, hombres y mujeres). Los datos, tomados de la tabla 26, son los mismos de la tabla 30, pero allí analizamos 4 muestras independientes independientes y ahora los analizamos como muestras relacionadas (el mismo sujeto en cada fila). Resultados en la tabla 34.
Tabla de resultados del análisis 4º Origen SC GL Filas 1459,6 9 Columnas 1336,2 3 Error 367,8 27 Total 3163,6 39
CM 162,1778 445,4000 13,6222
F 11,9054 32,6966
p 0,0000 0,0000
F crít. 2,2501 2,9604
Tabla 34 Con estas cuatro tablas a la vista podemos fácilmente completar la tabla de resultados que realmente nos interesa, siguiendo las indicaciones de la figura 3 que corresponde a la tabla 28.
Otros modelos de análisis de varianza
32
Cuadrados Medios 1392.4
Origen de la variación
Sumas de Cuadrados
Grados de Libertad
Grupos, Factor B
Anál. 1º, SC entre 1392.4
B -1 = 2-1 = 1
Anál. 4º SC filas
B (n-1) = (2) (5-1) =8
8.4
A -1 = 4-1 = 3
445.4
(A-1)(B-1 = (4-1)(2-1) (4-1)(2-1) = 3
156.2/ 3 = 52.67
(A-1)(B x (n-1))= (3) (2x4) = 24
211.6/24 =8.817
(muestras independientes) Dentro de los grupos; (error del factor B)
menos Anál. 1º SC entre
Tratamiento x dentro de los grupos (error de A y A x B)
1459.6 – 1336.2 = 67.2 Anál. 4º SC columnas 1336.2 Anál. 3º SC entre menos (Anál. 2º SC entre + Anál.1º SCentre) 2884.8 – (1336.2+1392.4) =156.2 Anál.1º SC entre +Anál. 3º SCdentro menos Anál. 4º SC filas 1392.4+278.8-1459.6 =211.6
Varianza total
La misma en todos los análisis
Tratamiento, Factor A (muestras relacionadas)
Interacción, A x B
F 1392.4/8.4 = 165.762
445.4/8.817 = 50.52 52.67/8.817 = 5.9
Figura 3 Los resultados son los mismos vistos en la tabla 28; como esos análisis de varianza hechos en EXCEL se pueden hacer muy rápidamente, éste puede ser un buen procedimiento en estos diseños mixtos en los que tenemos a la vez muestras independientes y relacionadas. 7.4. Programa en Internet Para este análisis de varianza disponemos en Internet de un programa específico que nos da la tabla de resultados aunque no los coeficientes de asociación (aunque sí tenemos la información suficiente para calcular η2). Lowry, Richard, VassarStats: Web Site for Statistical Computation,Vassar College, Poughkeepsie, Poughkeepsie, NY, USA; http://fa http://faculty.vassar.ed culty.vassar.edu/lowry/Vassa u/lowry/VassarStats.html rStats.html En el menú de la izquierda en ANOVA buscamos Two-Factor ANOVA with Repeated Measures on One Factor En este programa están invertidos los símbolos de los factores (A y B). En el cuadro de entrada number of rows no es el número de filas o de sujetos sino el número de niveles en el factor de medidas repetidas (o relacionadas, denominado factor A en esta tabla de resultados); en este caso el factor A tiene dos niveles, varones y mujeres (el programa sólo admite dos niveles en este factor A y hasta cuatro columnas en el factor B). Los datos se pueden importar de una tabla Word.
8. Referencias bibliográficas CALVO GÓMEZ, FÉLIX (1993). Técnicas estadísticas multivariantes. multivariantes. Bilbao: Universidad de Deusto. GIRDEN, ELLEN R. (1992). Anova repeated measures. Quantitative Applications in the Social Sciences. Newbury Park & London: Sage GUILFORD, J. P. y FRUCHTER , B. (1984). Estadística aplicada a la psicología y la educación, México: McGraw-Hill. HINKLE, DENNIS E.; WIERSMA, WILLIAM and JURS, STEPHEN G. (1994). Applied Statistics Houghton-Mifflin. for the Behavioral Sciences . Boston: Houghton-Mifflin. HUITEMA, BRADLEY E. (1980). The Analysis of Covariance and Alternatives. New York: John Wiley & Sons.
Otros modelos de análisis de varianza
33
HUBERTY , CARL J. and MORRIS, JOHN D. (1987). Multivariate Analysis Versus Multiple Univariate Analysis. Paper presented at the Annual Meeting of the American Educational Research Association, Washington, D.C. IVERSEN , GUDMUND R. and N and NORPOTH, HELMUT (1987). Analysis of Variance, 2nd. edition, Paper Series on Quantitative Quantitative Applications in the Social Sciences. Newbury Park: Sage. K IRK IRK , R OGER OGER E. (1995). Experimental Design, Procedures for the Behavioral Sciences. Boston: Brooks/Cole.
Otros modelos de análisis de varianza
Análisis de varianza Anexos
© Pedro Morales Vallejo Universidad Pontificia Comillas, Facultad de Ciencias Humanas y Sociales (Última revisión: 14 de Noviembre de 2009)
Índice Anexo I: Por qué no podemos utilizar la t de Student para hacer todas las comparaciones posibles cuando tenemos más de dos grupos....................... grupos ................................................ ............................... ...... Anexo II: El test de Bonferroni: procedimiento procedimiento para hacer todas las comparaciones comparaciones posibles entre pares de grupos sin llevar a cabo un análisis de varianza............ Anexo III: Cálculo de la media y de la desviación típica típica del total a partir de las medias y desviaciones desviaciones típicas de las muestras................................... muestras........................................................... .......................... 1. Media de los totales ............................................ ................................................................... ........................................ ................. 1.1. Con muestras de tamaño distinto ....................................................... 1.2. Con muestras de idéntico tamaño ...................................................... 2. Desviación típica de los totales .............................................. .................................................................. .................... 2.1. Con muestras de distinto tamaño ....................................................... 2.2. Con muestras de idéntico tamaño ...................................................... 2.3. Deducción de la fórmula ............................................ ................................................................... ......................... Anexo IV: Contrastes posteriores: la distribución q del rango estudentizado .................. Anexo V: Contrastes posteriores en diseños factoriales cuando la interacción es significativa significativa ............................................. ..................................................................... ............................................... ............................. ...... 1. Valores de k para consultar las tablas ......................................................... 2. Justificación de los nuevos valores de k ....................................................... Anexo VI: El número de sujetos en el análisis de varianza .............................................. .............................................. 1. Variables que intervienen en la determinación determinación del tamaño de la muestra.... 2. Tamaño de cada muestra cuando comparamos dos grupos (t de Student) ... 3. Tamaño de la muestra cuando tenemos más de dos muestras (análisis de varianza unifactorial) ............................................................... 4. Tamaño de la muestra en los diseños factoriales.......................................... factoriales.......................................... Anexo VII: Métodos no paramétricos de análisis de varianza ......................................... ......................................... 1. Observaciones sobre los métodos no paramétricos ..................................... 2. Métodos no paramétricos más importantes análogos al análisis de varianza Anexo VIII: Análisis de Varianza en Internet.......................................... Internet.................................................................. .......................... Referencias bibliográficas bibliográficas ................................................. .......................................................................... ................................................ .......................
3 5 7 7 7 7 7 7 8 8 10 12 12 13 17 17 19 19 21 23 23 23 25 25
2
Análisis de varianza: anexos
3
ANEXO I: Por qué no podemos utilizar la t de Student para hacer todas las comparaciones posibles cuando tenemos más de dos grupos Quizás la manera más fácil de captarlo es mediante una analogía de fácil comprensión y que tiene que ver con la distribución binomial . Imaginemos que tiramos una moneda al aire ¿Que probabilidades tenemos de que nos salga una cara? Si solamente tenemos una moneda tenemos dos resultados posibles, o nos sale cara o nos sale cruz: probabilidades:
Una posibilidad: posibilidad: cara una vez : p = .50 (50%) Otra posibilidad: posibilidad: cruz una vez: p = .50 (50%)
Con sólo dos resultados posibles (el 100%) tenemos un 50 % de probabilidades probabilidades de que nos salga cara y otro 50 % de probabilidades de que nos salga cruz.
Ahora vamos a tirar al aire dos monedas a la vez ¿Qué probabilidades tenemos de que nos salga una cara? Tenemos estos y solos posibles resultados: Con dos monedas tenemos cuatro posibles resultados ( cara-cara, cruz-cruz y dos veces cara-cruz). ¿Qué probabilidades tenemos de obtener al menos una cara? tres de cuatro o p = 3/4 =.75 (un 75% de probabilidades de que nos salga al menos una cara). Incidentalmente podemos observar que, simbolizando C como cara y X como cruz estos son los resultados posibles: una vez dos C, una vez dos X y dos veces XC (da lo mismo caracruz que cruz-cara) es decir, todas las posibilidades son: XX + CC + 2CX Dividiendo cada posible resultado por el número total de resultados distintos (4 en este caso) tenemos la probabilidad de que nos salga una determinada combinación cara-cruz. Si utilizamos los símbolos a y b posiblemente posiblemente caeremos en la cuenta del parecido de la expresión anterior con el cuadrado de un binomio: (a + b)2 = a2 + 2ab + b2 El exponente del binomio sería en este caso el número de monedas. Si en vez de dos monedas, utilizamos tres, la resolución de (a + b) 3 nos dará cuáles pueden ser los resultados distintos y cuántas veces obtendríamos cada uno. Al menos hemos visto que si estamos interesados en que nos salga por lo menos una cara, no es lo mismo arrojar al aire una moneda que dos o tres… A mayor número de monedas, mayor probabilidad de que al menos una nos salga cara. De manera análoga si comparamos tres grupos tenemos tres comparaciones posibles: posibles: el 1º con el 2º, el 1º con el 3º y el 2º con el 3º: en este caso las probabilidades de obtener por azar al menos una t estadísticamente significativa suben con respecto a comparar solamente dos grupos. moneda primera cara una posibilidad: otra posibilidad: cruz otra posibilidad: cara cruz otra posibilidad:
moneda segunda cara cruz cruz cara
Si vamos a hacer tres comparaciones y establecemos un nivel de confianza de α =.05 ¿Qué probabilidad tenemos de obtener al menos una t significativa? Esta pregunta tiene que ver con las probabilidades conjuntas, tema en el que no entramos pero que puede quedar Análisis de varianza: anexos
4 sugerido o ilustrado viendo todas las posibles diferencias estadísticamente significativas cuando tenemos tres grupos. Podemos encontrar sólo entre el 1º y el 2º una diferencia el 1º y el 3º sólo entre significativa: el 2º y el 3º sólo entre entre el 1º y el 2º y entre el 1º y el 3º entre el 1º y el 2º y entre el 2º y el 3º entre el 1º y el 3º y entre el 2º y el 3º entre el 1º y el 2º y entre el 1º y el 3º y entre el 2º y 3º La probabilidad de encontrar una t significativa no es ciertamente del 5%, son muchas más; de hecho, con tres grupos y operando con un nivel de confianza de .05, ya la probabilidad real de obtener al menos una diferencia significativa no es del 5% sino del 9.75%1. Algún autor lo explica de manera más sencilla (Kirk (1995): si tiramos al aire dos dados no es tan fácil que nos salgan la primera vez dos seises; pero si tiramos al aire 10 dados a la vez tenemos muchas más probabilidades de que nos salgan los dos seises… De todas maneas recordamos que podemos comparar los grupos de dos en dos si se dan estas condiciones: 1º tenemos hipótesis previas y justificadas justificadas antes de recoger lo datos y 2º el número máximo de comparaciones legítimas no puede ser superior a los grados de libertad (= k-1; con tres grupos podaríamos hacer dos comparaciones y no las tres posibles).
1 Una explicación más detallada sobre cómo obtener las probabilidades reales puede verse en McGuigan (6th Edition,
1994:140ss).
Análisis de varianza: anexos
5
ANEXO II: El test de Bonferroni: procedimiento para hacer todas las comparaciones posibles entre pares de grupos sin llevar a cabo un análisis de varianza Ya hemos indicado que cuando en el mismo planteamiento tenemos más de dos grupos, no podemos contrastar todos los posibles pares de medias entre sí porque aumenta la probabilidad de error. Hemos visto que con tres grupos un nivel de confianza de α = .05 equivale de hecho a un nivel de .0975. Si deseamos hacer todos los contrastes posibles de medias podríamos hacerlos siendo más estrictos en el nivel de confianza sin necesidad de acudir al análisis previo de varianza. El procedimiento más sencillo para ajustar el nuevo nivel de confianza es el denominado test de Bonferroni.2 Este procedimiento consiste en dividir el nivel de confianza escogido ( α = .05, por ejemplo, o α = .01) por el número de posibles comparaciones : la probabilidad resultante es la que debemos utilizar. Ya sabemos que el número de posibles comparaciones de k grupos tomados de dos en dos es igual a k(k-1)/2. La fórmula general del nuevo nivel de confianza es:
α α = probabilidad escogida ( α = .05, .01, etc.) k(k-1) k = número de grupos 2 Esta probabilidad es para pruebas de una cola o unilaterales (nos fijamos solamente en un extremo de la distribución); este valor de α habrá que dividirlo por 2 si utilizamos contrastes bilaterales como es usual. Por ejemplo, si tenemos tres grupos (k = 3), nuestro nivel de confianza es α = .05, y queremos hacer todas las comparaciones posibles entre grupos (sin combinar las medias de varios grupos en una sola) el nuevo valor de α será: .05 α = 3(3 − 1) = .0167 2 En las tablas de la distribución normal (muestras grandes) vemos que a una probabilidad de .0167 (área menor) le corresponde z = 2.39; bastante mayor que el 1.96 al que estamos acostumbrados acostumbrados (y que en pruebas de una cola es 1.64). De manera más sencilla si disponemos de la probabilidad exacta de un contraste (fácilmente disponible en Internet) y la multiplicamos por el número de comparaciones, podemos ver si llega a .05 (suponiendo que éste es nuestro nivel de confianza) (Bland y Alman, 1995). Por ejemplo si obtenemos p = .0167 y tenemos tres comparaciones, nuestra probabilidad será (con un nivel de confianza confianza de .05) p = (.0167)(3) = .05. En opinión de varios autores este contraste no parece aconsejable porque es considerado demasiado conservador; conservador; es decir, tiene poca potencia para rechazar la Hipótesis Nula cuando realmente es falsa (Hancock y Klockars, 1996; Jaccard, 1998). Por otra parte estos contrastes no están pensados como contrastes posteriores al análisis de varianza sino para siempre que nuevo valor de α =
2 Carlo Emilio Bonferroni elaboró su teoría sobre la probabilidad (publicada en Florencia en 1936) al margen del análisis de varianza, pero en los años 60 se aplicó a los contrastes posteriores; es el contraste también conocido como de Dunn-Bonferroni. A veces se menciona a Bonferroni como desconocido (McGuigan, 1994); pero puede encontrarse citado en Hancock y Klockars (1996) y una breve reseña biográfica en http://www-history.mcs.standrews.ac.uk/Biographies/Bonferroni.html (en The MacTutor History of Mathematics archive http://www-history.mcs.standrews.ac.uk/index.html)) andrews.ac.uk/index.html Análisis de varianza: anexos
6 en el mismo planteamiento haya más de dos contrastes de medias (por ejemplo si comparamos dos grupos en una serie de variables) y también serían aplicables si tenemos un conjunto de coeficientes coeficientes de correlación. Una crítica bien razonada a los ajustes de Bonferroni puede verse en Perneger (1998) que merece la pena citarle literalmente: this paper advances the view, widely held by epidemiologists, that Bonferroni adjustments are, at best, unnecessary and, at worst, deleterious to sound statistical inference... The main weakness is that the interpretation of a finding depends on the number of other tests performed …The likelihood of type II errors is also increased, so that truly important differences are deemed non-significant... Bonferroni adjustments imply that a given comparison will be interpreted differently according to how many other tests were performed. were performed.
Nuestra valoración personal es que se puede prescindir de los contrastes de Bonferroni con la conciencia tranquila porque son excesivamente conservadores y además esta opinión está avalada por autores relevantes. Los contrastes de Bonferroni están programados en GraphPad (ver referencias bibliográficas) bibliográficas) y también en el SPSS (en análisis de vaianza). Más que contrastes, como si se tratara de alternativas a la t de Student, se trata de nuevos valores de p e quivalentes a α = .05 cuando hacemos más de un contraste entre dos medias. Estos valores pueden verse en Internet, en B ISSONNETTE, VICTOR L., Berry College http://fsweb.berry.edu/acad http://fswe b.berry.edu/academic/educat emic/education/vbisson ion/vbissonnette/ nette/ Some Useful Statistical Tables, Critical Values of Dunn’s (Bonferroni) test (experimentwise α = .05) http://fsweb.berry.edu/acad http://fswe b.berry.edu/academic/educat emic/education/vbisson ion/vbissonnette/table nette/tables/dunns.pdf s/dunns.pdf
Análisis de varianza: anexos
7
ANEXO III: Cálculo de la media y de la desviación típica del total a partir de las medias y desviaciones típicas de las muestras Frecuentemente lo que tenemos de las diversas muestras son los datos descriptivos básicos: el número de sujetos (N), la media (M) y la desviación típica (σ). Son datos que podemos ver en una publicación o que nosotros mismos guardamos 3. Si a partir de estos datos queremos hacer un análisis de varianza con una simple calculadora, necesitamos además tener: a) La media del total de todos los sujetos (al menos para calcular la suma de cuadrados entre grupos cuando los grupos son de tamaño desigual). b) La desviación típica del total de las puntuaciones; en realidad necesitamos la varianza, que multiplicada por N (número total de datos, si se trata de muestras relacionadas N = n x k) nos dará la suma de cuadrados del total . Tanto la media total como la desviación típica o varianza de los totales podemos calcularlos a partir de los datos descriptivos de las muestras, sin necesidad de disponer de todas las puntuaciones individuales que normalmente sí necesitaremos si vamos a utilizar un programa de ordenador (como el SPSS). Las fórmulas apropiadas ya las hemos ido viendo en varias ocasiones; ahora las repetimos de manera más ordenada y con una demostración. demostración. 1. Media de los totales 1.1. Con muestras de tamaño distinto ΣnM Se multiplica cada media por su número de sujetos, Mt = [1] se suman estos productos y se divide por el número Σ n(o N total) total de sujetos. Se trata de una media ponderada que no necesita una especial demostración. 1.2. Con muestras de idéntico tamaño Cuando los grupos son de idéntico tamaño, la media total es M = ΣΜ t simplemente la media de las medias (suma de las medias k dividida por el número de medias): 2. Desviación típica de los totales 2.1. Con muestras de distinto tamaño 2
σt =
2
Σn(M + σ ) 2 - Mt N
[3]
[2]
σt es la desviación típica de los totales; como realmente nos interesa la varianza, podemos prescindir de la raíz cuadrada. n es el tamaño de cada grupo, que se multiplica por la suma de su media y desviación elevadas al cuadrado. La desviación típica la suponemos calculada dividiendo dividiendo por N.
La fórmula [3] está tomada de McNemar (1962), pero es fácilmente demostrable como vamos a ver más adelante.
3 A partir de estos datos (N, Media y desviación típica de cada muestra) también tenemos programado en Internet el análisis de varianza para varias muestras independientes (por ejemplo, los programas de Internet de Pezzulo y en Department of Obstretrics And Gynaecology, The Chinese University of Hong Kong; ver referencias bibliográficas). Análisis de varianza: anexos
8 2.2. Con muestras de idéntico tamaño Cuando los grupos son de idéntico tamaño (como sucede siempre que tenemos muestras relacionadas y en muchos otros casos) la fórmula de la desviación típica de los totales queda simplificada; k es el número de grupos 4.
ΣM2 + Σσ 2 - M 2t [4] σt = k En este caso, muestras de idéntico tamaño, la media de los totales ya sabemos que es
la
media de las medias.
Como se trata de calcular la varianza (y no la desviación típica), podemos prescindir de la raíz cuadrada. Estos valores pueden variar según se calculen por un método o por otro, debido al distinto número de decimales que se utilicen en cada caso, pero las diferencias no afectan apreciablemente a los cálculos posteriores. Aun así es preferible utilizar tres o cuatro decimales. 2.3. Deducción de la fórmula ¿De dónde viene esta fórmula [3] para combinar desviaciones típicas a partir de los valores de las desviaciones, medias y número de sujetos de los diversos grupos? La fórmula más directa de la desviación típica es σ =
Σ(X - M)2 [5] N
Hay otras fórmulas, que se derivan de [5], para calcular la desviación típica sin necesidad de calcular las puntuaciones diferenciales (X-M). Lo que sucede es que estas fórmulas que simplifican operaciones son menos útiles, ya que disponemos de calculadoras con programación estadística. estadística. Una de estas fórmulas para calcular la desviación típica a partir de las puntuaciones directas y de la media, es la que nos interesa para poder demostrar la fórmula que nos permite combinar desviaciones típicas de varios grupos; es la fórmula [6] que podemos encontrar en muchos textos. A partir de esta fórmula [6] llegamos con facilidad a la fórmula [3] para combinar desviaciones típicas o varianzas: 2 2 2 Σ X2 2 2 ΣX 2 Σ σ y X = N( + M ) [7] 2 la varianza será σ = -M σ= - M [6] N N En [7] podemos ver ya el parecido con la fórmula [3]. Si de dos muestras conocemos los valores de N, M y σ, podemos utilizar la fórmula [6] para calcular la desviación típica de las dos muestras combinadas en una única muestra. En esta fórmula [6] tenemos ahora que N = N 1 + N 2; la media será la media total de las dos (o más) muestras y ΣX2 será la expresión [7] calculada en las dos (o más) muestras y sumadas. Es decir, substituyendo substituyendo [7] en [6] [ 6] llegamos a la fórmula [3]. Podemos preguntarnos ahora de dónde sale la fórmula [6], que es la que hemos utilizado para demostrar la fórmula [3] que nos permite calcular la desviación típica de dos (o más) muestras combinadas en una sola. 4 ∑M2+ ∑σ2 se calcula con mucha facilidad con una calculadora con programación estadística: basta introducir todas
las medias y todas las desviaciones y obtener el resultado en la función Σx2
Análisis de varianza: anexos
9 En la fórmula de la desviación típica, la habitual, tenemos en el numerador un binomio elevado al cuadrado [ Σ(X-M)2]. No hay más que aplicar el procedimiento usual: (a - b) 2 = a2 2ab + b 2, y así llegamos a [6]: Utilizando la varianza para simplificar, tenemos que: Σ (X-M)2 Σ (X2 -2MX+M 2 ) Σ X2 ΣX Σ M2 2 σ = = = - 2M + [8] N N N N N Σ M2 NM 2 ΣX Como en [8] tenemos que =M y = = M2 N N N Σ X2 Σ X2 2 2 2 2 σ= tendremos que σ = - 2M + M - M2 y así llegamos a [6]. N N
Análisis de varianza: anexos
10
ANEXO IV: Contrastes posteriores: la distribución q del rango estudentizado estudentizado En los contrastes posteriores de Tukey utilizamos la distribución de q o rango estudentizado (a veces se utiliza el símbolo qk ; k suele simbolizar el número de medias o de muestras). Las tablas de q también se utilizan en otros contrastes posteriores (como en los de Duncan y Newman-Keuls) 5. Es fácil entender la fórmula y distribución de q porque se trata de algo análogo a la fórmula y distribución de t o z cuando contrastamos dos medias. Comparemos en primer lugar las fórmulas de t (para dos muestras de idéntico número de sujetos = n) y de q para varias muestras también de idéntico tamaño (n): M i − M k M − M2 = t = 12 q CMdentro σ 1 + σ 22 n n-1 Los numeradores son idénticos; se trata de la diferencia entre dos medias. Los denominadores no son idénticos, pero casi. El que en la t de Student tengamos n-1 en el denominador del denominador quiere decir que las dos varianzas se han calculado dividiendo por n y no por n-1; si las hubiéramos calculado dividiendo por n-1 tendríamos n en el denominador; ahí no hay diferencia. Los cuadrados medios dentro de los grupos que vemos en la fórmula de q no son otra cosa que la combinación de las varianzas de todos los grupos, mientras que en la t de Student sólo tenemos dos varianzas porque solamente se trata de dos grupos. Por lo tanto el estadístico q es análogo a la t de Student o a una puntuación típica z: es en este caso un valor asociado a la probabilidad de que se dé una diferencia entre dos medias en el caso de que ambas procedan de la misma población. De la misma manera que tenemos una distribución de t, tenemos una distribución de q. Tanto t como q expresan una diferencia entre dos medias en desviaciones desviaciones típicas o (con más propiedad errores típicos, pues es eso lo que tenemos en los denominadores). En ambos casos esta reducción de una diferencia a una puntuación típica (eso viene a ser lo que realmente hacemos) nos permite conocer las probabilidades de que esa diferencia sea casual o, lo que es lo mismo, debida a fluctuaciones normales. En la distribución de q se tiene en cuenta el que en la medida en que aumenta el número de medias (no se trata solamente de dos medias), aumenta también la probabilidad de error al rechazar la Hipótesis Nula de no diferencia. La diferencia entre las fórmulas de t y q está en que en el denominador de t tenemos el error típico de la diferencia entre dos medias y en el caso de q lo que tenemos en el denominador es el error típico del conjunto de medias que tenemos en nuestro planteamiento; se basa en la variabilidad o diferencias normales y esperadas en un conjunto de medias. El término rango estudentizado que suele aplicarse a q puede resultar poco claro. Rango viene a ser aquí un término análogo de diferencia (entre dos medias) y estudentizado (por analogía con la t de Student, quizás más claro sería decir tipificado) quiere decir que dividimos la diferencia entre dos medias por una desviación típica (o error típico que es como denominamos a las desviaciones típicas de las distribuciones muestrales). El término rango tiene su sentido porque expresa orden: ordenamos las medias de mayor a menor y lo que
5 La distribución de q se la debemos a William Sealey Gossett (Kirk, 1995), lo mismo que la de la t de Student. Análisis de varianza: anexos
11 verificamos es la probabilidad de que la media más alta y la más baja difieran significativamente (procedan de la misma población). Si las medias extremas proceden de la misma población, también consideramos que las medias intermedias no difieren significativamente entre sí. Si las medias mayor y menor difieren significativamente, podemos seguir comparando entre sí el resto de las medias. Es útil caer en la cuenta de esta relación entre t y q para captar que lo que hacemos es semejante a lo que hacemos cuando comparamos dos medias mediante la t de Student. Si observamos las tablas de q y nos fijamos en los valores correspondientes a dos medias nada más (en cuyo caso podríamos utilizar la t de Student) y para muestras grandes (los grados de libertad máximos que vienen en las tablas) tenemos que: niveles de confianza
valor de q para k =2 y gl = ∞
α = .05
2.77
α = .01
3.64
valor de t =
q 2
2.77 = 1.96 2 3.64 = 2.57 2
Análisis de varianza: anexos
Estos son los valores de t que encontramos en las tablas de la distribución normal para muestras grandes.
12
ANEXO V: Contrastes posteriores en diseños factoriales cuando la interacción es significativa Tratando del análisis de varianza con dos criterios de clasificación (diseños factoriales) vimos cómo hacer los contrastes posteriores; se trata de una aplicación del contraste de Tukey. Cuando comparamos medias del mismo factor (medias de filas entre sí o de columnas entre sí), el valor de k para consultar las tablas de q es el número de medias (o niveles) que hay en el factor. Cuando la interacción es significativa nos puede interesar contrastar las medias de los distintos niveles de un mismo factor en un nivel del otro. En la tabla 1 si la interacción es significativa nos puede interesar comparar, por ejemplo las medias de A 1B1 y A3B1 (dos medias de A en uno de los niveles de B).
Factor B
Factor A A2 A2B1
A3 A3B1
medias de B
B1
A1 A1B1
B2
A1B2
A2B2
A3B2
B2
A1
A2 Tabla 1
A3
medias de A
B1
1. Valores de k para consultar las tablas En estos casos los valores de k para consultar las tablas no son el número de medias, sino que dependen del número de comparaciones de interés, que a su vez dependen del número de niveles que hay en los factores 6 (tabla 2). Valor de k' para consultar las tablas de q 2x2......................... 3 2x3......................... 5 2x4......................... 6 2x5......................... 8 3x3......................... 7 3x4......................... 8 3x5......................... 10 4x4......................... 10 4x5......................... 12 5x5......................... 15
tamaño de la tabla
Tabla 2 Los valores de k que tenemos que consultar son los puestos en la tabla 2 que hemos preparado según la justificación puesta más adelante (y que es la misma tabla puesta al tratar de los contrastes posteriores en los diseños factoriales). En esta tabla 2 tenemos el valor de k
6 Por esta razón en la tabla 1 utilizamos el símbolo k’ en vez de k. Aunque como indica Toothaker (1993), en vez de tener en cuenta el número de comparaciones posibles, podemos contabilizar solamente (para buscar k en las tablas de q) el número de comparaciones que nos interesan o que tienen sentido en nuestro planteamiento. Como criterio conservador podemos tener en cuenta todas las comparaciones posibles. Análisis de varianza: anexos
13 en las tablas de Tukey según el tamaño de nuestra tabla nxn, desde tablas 2x2 hasta tablas 5x5. 2. Justificación Justificación de los nuevos valores de k Lo que pretendemos ahora es justificar esta tabla y explicar cómo está hecha, de manera que podamos ampliarla apara planteamientos planteamientos con más 5 niveles en uno o en los dos factores. Para explicar de dónde viene la tabla 2, seguimos dos pasos metodológicos: metodológicos: 7 1º Calculamos el número de comparaciones comparaciones posibles de interés (valor de C, fórmula [2], puesta más adelante) 2º A partir de este número podemos calcular los valores de k (análogo al número de medias en los diseños unifactoriales) para consultar las tablas de q con grados de libertad = N - ab (número total de sujetos menos número de subgrupos). 1º Calculamos el número de comparaciones posibles entre medias del mismo nivel y factor Una cosa es todas las comparaciones posibles, y otra todas las comparaciones posibles de interés. En general el número total de comparaciones posibles tomando las medias de dos en dos ya sabemos que es: k(k − 1) [1] donde k es el número de de grupos. 2 Aquí no nos interesan todas las comparaciones posibles sino solamente todas las posibles entre los niveles de cada factor . Antes de presentar la fórmula correspondiente [2] vamos a ver, paso a paso, cuántas comparaciones podemos hacer en el planteamiento inicial, donde tenemos dos factores, A dividido en tres niveles, y B dividido en dos niveles (tabla 2 x 3). De esta manera entendemos mejor la fórmula. Comparaciones Comparaciones en los tres niveles del factor A 2(2 − 1) Número de comparaciones en A 1 (dos subgrupos) = =1 2 En cada columna cabe una comparación (sólo hay dos medias) y como tenemos tres columnas (los tres niveles de A) el número de comparaciones posibles en el factor A es 1 x 3 =3 Comparaciones Comparaciones en los dos niveles del factor B 3(3 − 1) Número de comparaciones en B 1 (tres subgrupos) = =3 2 En cada fila caben 3 comparaciones, y como tenemos dos filas (B 1 y B 2), el número de comparaciones comparaciones posibles en el factor B son 3 x 2 = 6 El número total de comparaciones posibles es igual a 3 + 6 = 9 (siempre dentro de la misma fila o columna). Por lo tanto la fórmula general para calcular el número de comparaciones posibles entre medias pertenecientes al mismo nivel de un mismo factor cuando tenemos dos factores es: número de comparaciones comparaciones posibles
=
7
El procedimiento es de Cicchetti (1972) aunque la tabla III (reproducida parcialmente) está tomada de Linton, Gallo y Logan (1975, que a su vez la adaptan de Cicchetti). La justificación del procedimiento puede verse también en Cicchetti (1972) y en Toothaker (1991, 1993). Análisis de varianza: anexos
14 C = comparaciones posibles entre medias del mismo nivel a = número de niveles en el factor A b = número de niveles en el factor B Es sencillo confeccionar una tabla con el número de comparaciones posibles cuando tenemos dos factores divididos en varios niveles. En la tabla 3 figuran las comparaciones posibles (contando solamente solamente las que se pueden hacer dentro de cada nivel de cada factor) cuando tenemos divididos los factores entre 2 y 5 niveles: b(b - 1) ⎤ ⎡ a(a - 1) ⎤ C = ⎡⎢ x a⎥ + ⎢ x b⎥ ⎣ 2 ⎦ ⎣ 2 ⎦
[2]
Tablas de dos Número de contrastes posibles factores en el mismo nivel (C) 2 x 2 .......... ............... .......... ......... .... 4 2 x 3 .......... ............... .......... ......... .... 9 2 x 4 .......... ............... .......... ......... .... 16 2 x 5 .......... ............... .......... ......... .... 25 3 x 3 .......... ............... .......... ......... .... 18 3 x 4 .......... ............... .......... ......... .... 30 3 x 5 .......... ............... .......... ......... .... 45 4 x 4 .......... ............... .......... ......... .... 48 4 x 5 .......... ............... .......... ......... .... 70 5 x 5 .......... ............... .......... ......... .... 100 Tabla 3 El número de contrastes posibles es un paso previo para poder consultar las tablas de q. Para consultar estas tablas necesitamos dos valores, el de k ( número de medias o su equivalente como en este caso) y los grados de libertad. 2º Valor de k Sabemos ya que el número de comparaciones posibles (C), tomándolos de dos en dos, de k elementos es igual a: k(k − 1) C= 2 En nuestro caso partimos ya del valor de C, calculado previamente (tabla 2). En nuestro ejemplo, una tabla de 2 x 3, C = 9, por lo que 9 = [k (k -1)/2]. Lo que tenemos que hacer es despejar el valor de k: k(k − 1) Si 9 = tenemos que k 2 - k - (9 x 2) = 0. 2 Se trata de una ecuación de segundo grado, cuya expresión general es: -b – b2 -4ac ax + bx + c = 0 y la doble solución para x es x = 2a En nuestro caso particular tenemos que siempre a = +1, b = -1 y c = - (2 x C) (multiplicamos por dos el número de comparaciones posibles ya calculado y con signo menos), por lo que nuestra solución para x (tendremos siempre dos soluciones o valores de x que cumplen la ecuación) es: 2
Análisis de varianza: anexos
15 1 ± 1 + (4x2C) [3] 2 En nuestro ejemplo C = 9, por lo que las dos soluciones de x son 4.77 y -3.77; redondeando estos números y en valores absolutos tenemos 5 y 4. Con estos valores, 5 y 4, aplicamos la fórmula de C, y nos quedaremos, para utilizarlo como k para consultar las tablas, con el valor de x que nos dé un resultado más próximo al valor de C ya calculado (tabla 3): x=
5(5 − 1) 4(4 − 1) = 10 C= =6 2 2 El valor de x (5 ó 4) que al aplicar la fórmula de C nos dé un valor más próximo a nuestro C (= 9) es 5 (10 se aproxima a 9 más que 6), luego escogemos 5 como valor de k para consultar las tablas. Con este procedimiento podemos ampliar las tablas si en algún factor tenemos más de seis niveles. Supongamos que tenemos un cuadro de 6 x 6, dos factores cada uno dividido en 6 niveles. El número posible de comparaciones (siempre dentro de cada factor) sería igual a C = 180 (según vimos antes en [2]), y obtendríamos estos valores de x: 19.47 y 18.47 (en números absolutos) y redondeando 19 y 18, con los que tendríamos estos valores de C: C=
19(19 − 1) 18(18 − 1) = 171 C= = 153 2 2 El valor más próximo a nuestro C (= 180) nos lo da x = 19, luego tenemos que k = 19 al consultar las tablas de q. El proceso puede parecer complicado, pero no lo es si nos fijamos en los tres sencillos pasos de este resumen: 1º Calculamos el número de comparaciones posibles entre medias pertenecientes al mismo factor; es el valor de C de la fórmula [2] 2º Calculamos los dos valores de x de la ecuación anterior; fórmula [3] 3º Utilizamos los dos valores de x en la fórmula general [1] y nos quedamos quedamos con el valor de x que nos dé un número más próximo a C: éste va a ser el valor de k que utilizaremos al consultar las tablas. La tabla 4 está confeccionada siguiendo los pasos indicados. C=
Análisis de varianza: anexos
16 Número de comparaciones comparaciones Valor de k' para posibles no confundidas (C) consultar las tablas de q 3 - 4..................................... 4..................................... 3 5 - 8 .................................... .................................... 4 9 - 12....................... 12 .................................... ............. 5 13 - 17....................... 17 .................................... ............. 6 18 - 24....................... 24 .................................... ............. 7 25 - 32....................... 32 .................................... ............. 8 33 - 40....................... 40 .................................... ............. 9 41 - 50....................... 50 .................................... ............. 10 51 - 60....................... 60 .................................... ............. 11 61 - 72....................... 72 .................................... ............. 12 73 - 84....................... 84 .................................... ............. 13 85 - 98....................... 98 .................................... ............. 14 99 - 112....................... 112 .................................... ............. 15 Tabla 4 En la práctica lo más cómodo es disponer de una tabla que combine las tablas 3 y 4, para poder consultar el valor de k en las tablas de q a partir del número de niveles que tenemos en nuestro planteamiento; esto es lo que hemos hecho en la tabla 2 puesta al comienzo de este anexo, y que también figura en el lugar correspondiente al tratar de los diseños factoriales.
Análisis de varianza: anexos
17
ANEXO VI: El número de sujetos en el análisis de varianza En los estudios de carácter empírico o experimental, en sentido amplio, las normas que suelen darse para determinar el número apropiado de sujetos depende de la finalidad del estudio. a) Posiblemente lo más frecuente es encontrar normas y fórmulas para determinar el tamaño de la muestra cuando se quieren extrapolar los resultados a la población, como es normal en los estudios de carácter más sociológico (encuestas, sondeos pre-electorales, etc.). b) Normas o recomendaciones distintas suelen darse con otras finalidades específicas, como el número de sujetos necesario cuando se trata de construir un test o escala, o el número de sujetos necesario o recomendable cuando se va a hacer un análisis correlacional, o más concretamente, concretamente, un análisis factorial. c) Aquí nos interesa cómo determinar el número de sujetos en los estudios experimentales, los más relacionados con el análisis de varianza. Incluiremos también lo relativo al tamaño de las muestras cuando sólo se requiere la t de Student para comparar dos medias, por cercanía con el análisis de varianza que también se podría utilizar en este caso, y completamos así las orientaciones sobre el número de sujetos cuando se utiliza un diseño experimental o cuasi-experimental cuasi-experimental en un sentido más restringido. 1. Variables que intervienen en la determinación del tamaño de la muestra Aunque en la práctica podemos limitarnos a consultar unas tablas, es muy conveniente conocer con qué criterios están hechas estas tablas. Se trata de las variables de las que depende el tamaño de la muestra. 1. El nivel de confianza (que solemos expresar así: α = .05, α = .01). Si escogemos un nivel de confianza de .05 (como es práctica común) queremos decir que aceptamos un 5% de probabilidades de error al rechazar la Hipótesis Nula (de no diferencia). Se trata de minimizar el denominado error Tipo I (aceptamos pocas probabilidades de equivocarnos cuando afirmamos una diferencia). 2. La potencia de la prueba. Por potencia entendemos la probabilidad de no cometer el error denominado Tipo II: no rechazar la Hipótesis Nula cuando podríamos haberla rechazado. La probabilidad de cometer este tipo de error se simboliza como β, y la potencia es por lo tanto 1- β. Podemos definir la potencia como la probabilidad de rechazar una Hipótesis Nula que es falsa.
De la misma manera que un nivel de confianza de α = .05 es habitualmente aceptado como razonable, por lo que respecta a la potencia (1- β) se estima que es razonable establecer una potencia de .80, es decir tener un 80% de probabilidades de detectar una diferencia (o relación) de una determinada magnitud 8. Si deseamos una potencia mayor (.90 o incluso 1) el tamaño requerido de la muestra puede ser ya excesivamente excesivamente grande. El error Tipo I (decir sí cuando habría que decir que no hay diferencia, relación, etc.) es más serio que el error Tipo II (decir no cuando podríamos haber dicho que sí), de ahí la práctica generalizada de utilizar unos niveles de confianza muy estrictos, como son .05 ó .01: 8 La recomendación de una potencia de .80 la propone y justifica Cohen (1988:56; Jacob Cohen es la fuente principal
que suele seguirse en este tema). El peligro de cometer el error Tipo II queda reducido a .20 (20% de probabilidades) y está en equilibrio con α = .05: suponemos que el error Tipo I es cuatro veces más serio que el error Tipo II (.20 es cuatro veces .05). Esta recomendación no es tan seguida como la de establecer un nivel de confianza de .05, porque con frecuencia no se tiene en cuenta el error Tipo II, que por otra parte ya se controla bien cuando el número de sujetos es grande. Análisis de varianza: anexos
18 aceptamos muy pocas probabilidades de equivocarnos cuando afirmamos una diferencia. Si establecemos un nivel de significación muy estricto (un valor de α muy bajo) es muy improbable que cometamos el error Tipo I: si rechazamos el azar (o la variabilidad normal debida
al error muestral) como explicación de una diferencia es muy poco probable que nos equivoquemos.
Lo que sucede es que con un valor muy bajo de α podemos caer en el error Tipo II: puede ser que la Hipótesis Nula sea falsa, pero como somos muy estrictos no llegamos a rechazarla. Con un nivel de significación de α = .001 las probabilidades de no rechazar una Hipótesis Nula que sea realmente falsa pueden ser muy pocas. En la práctica hay que sopesar ambos tipos de error. El minimizar el error Tipo I no significa que no tengamos que prestar atención al error Tipo II. Aunque las decisiones sobre el tamaño de la muestra se toman frecuentemente en función de los datos disponibles, o imitando lo que han hecho otros, no es racional, (como señala Cohen, 1988:55), el determinar el tamaño de la muestra sin tener en cuenta el error Tipo II. 3. La magnitud de la diferencia (o de la relación, etc.) que deseamos detectar y que solemos denominar tamaño del efecto. El término efecto no implica causalidad, sino simplemente simplemente el grado en que un fenómeno (diferencia, relación, etc.) está presente. La implicación de la magnitud en el tamaño de la muestra es obvia: cuando las diferencias son grandes, nos bastan pocos sujetos para detectarlas, pero cuando son muy pequeñas necesitamos muchos sujetos; si solamente nos interesan diferencias grandes, necesitaremos necesitaremos muchos menos sujetos. Podemos intuirlo con un ejemplo muy claro. Si estamos interesados en comprobar si difieren en altura los escandinavos y los twa (pigmeos de Ruanda y Burundi) no necesitaremos muchos sujetos en las muestras; nos bastarán muy pocos sujetos de cada grupo para caer en la cuenta de que se trata de poblaciones muy distintas en altura. En cambio si se trata de encontrar diferencias pequeñas entre las medias de poblaciones que no difieren mucho entre sí, no nos bastará con comparar muestras de tamaño pequeño. Es claro por otra parte que con muestras grandes es fácil encontrar diferencias irrelevantes. estadísticamente significativas pero pequeñas y con frecuencia irrelevantes. Al planificar cualquier tipo de experimento o análisis debemos tener en cuenta también en qué tipo de magnitud estamos interesados, porque si solamente son de interés magnitudes más bien grandes podemos ahorrar costes y trabajo utilizando muestras relativamente pequeñas. Si queremos garantizar a toda costa que nos salgan unas diferencias (o relaciones) estadísticamente significativas, aunque sean muy pequeñas (y con frecuencia de interés muy dudoso o cuestionable), cuestionable), necesitaremos muestras muy grandes. 4. La varianza de la población: ya sabemos que si los sujetos son muy iguales dentro de cada grupo, necesitaremos muestras menores para detectar diferencias (si todos son de idéntica altura, o todos piensan lo mismo, etc., nos bastaría un solo sujeto de cada grupo para ver si hay alguna diferencia entre los grupos). Estas cuatro variables se combinan en las fórmulas apropiadas para determinar el tamaño óptimo de las muestras. Aunque en principio son preferibles las muestras grandes, por razones de economía (costos, trabajo) podemos calibrar el tamaño de la muestra de acuerdo con nuestras especificaciones en estas cuatro variables. No necesitamos aplicar las fórmulas para conocer el tamaño de la muestra porque ya disponemos de tablas para las situaciones más frecuentes; las tablas que ponemos aquí están muy reducidas pero pueden ser suficientes como orientación sobre el tamaño de la muestra que debemos buscar (tablas más completas pueden encontrase en los autores que citamos y en otros). Sí es de interés conocer qué variables inciden en el número de sujetos que necesitamos.
Análisis de varianza: anexos
19 No sobra recordar aquí que el tamaño de la muestra es importante, pero no es la única característica de la muestra que nos interesa. En diseños experimentales en sentido propio necesitaremos muestras aleatorias, y en cualquier caso siempre debemos preguntarnos a qué población pueden estar representando las muestras que utilizamos. 2. Tamaño de cada muestra cuando comparamos dos grupos (t de Student) En la tabla 4 tenemos el tamaño de cada muestra necesario para comparar dos muestras9. Tablas semejantes, más o menos extensas o adaptadas, pueden encontrarse en diversos autores; no siempre coinciden exactamente las cifras del número de sujetos debido al distinto redondeo de decimales al aplicar las fórmulas. Suponemos: varianzas iguales, muestras de idéntico tamaño, hipótesis bilaterales potencia (1- β) de .80 nivel de confianza
.05 .01
d =.20 392 586
d = .30 174 260
d =.50 63 93
d = .70 32 48
d =.80 25 36
d =.1.0 16 23
d = 1.20 12 18
Tabla 5 Estamos suponiendo muestras de idéntico tamaño, pero si tenemos ya una muestra con un determinado número de sujetos, podemos calcular el tamaño necesario en la otra muestra. La fórmula [Cohen, 1988:59] es ésta: n nuevo =
(n disponible )(n tablas ) 2n disponible − n tablas
Vamos a suponer, por ejemplo, que tenemos ya un grupo experimental de 40 sujetos que ha tenido una determinada experiencia y deseamos compararlo con otro (grupo de control, o al menos como término de comparación); estamos interesados en detectar al menos una diferencia moderada (d = .50) a un nivel de confianza de α = .05 ¿Cuántos sujetos deberemos incluir en el nuevo grupo de control? En las tablas vemos que necesitaríamos 63 sujetos en cada grupo; el tamaño del nuevo grupo deberá ser: n nuevo =
(40)(63) = 148 (2x40) − 63
3. Tamaño de la muestra cuando tenemos más de dos muestras (análisis de varianza unifactorial)
En la tabla 6 tenemos el número de sujetos necesario en cada muestra cuando tenemos más de dos muestras (entre tres y seis muestras). En esta tabla hemos puesto como orientación los valores correspondientes a α = .05 y 1β (potencia) de .70 y .80; suponemos también un número idéntico de sujetos en cada muestra. Podemos tomar como referencia de magnitud o el valor de ω2 o el valor de f, el tamaño del efecto propuesto por Cohen (1988) cuando tenemos más de dos grupos 10:
9 Valores seleccionados de la tabla 2.4.1 de Cohen (1988). 10 Ponemos los dos valores porque podemos encontrar los dos como referencia en otras tablas. Análisis de varianza: anexos
20 a) El coeficiente ω2 nos cuantifica el grado de asociación entre la variable independiente independiente (el pertenecer a uno u otro grupo) y la variable dependiente. b) El tamaño del efecto f propuesto por Cohen (1988) cuando tenemos más de dos grupos11. Cuando tenemos solamente dos grupos, ya sabemos que el tamaño del efecto es igual a la diferencia entre las dos medias dividida por la desviación típica combinada. Cuando hay más dos grupos el denominador es el mismo, pero lo que tenemos en el numerador es la dispersión o desviaciones de todas las medias con respecto a la media común (un valor análogo a la desviación típica de las medias). En la práctica el cálculo más sencillo de f es a partir de ω2 (que es habitual calcular como complemento al análisis de varianza); ambos valores están relacionados de esta manera (fórmula 2.27): ω2 f = 1− ω 2
Realmente si hemos calculado ω2 ya no necesitamos conocer el valor de f, pues no va a aportar una información que nos lleve a una interpretación o a una valoración distinta. Por lo que respecta a tener una orientación sobre el tamaño de la muestra, nos basta consultar las tablas teniendo en cuenta, al menos de manera aproximada, el tipo de magnitud en la que estamos interesados. Las valoraciones (magnitud pequeña, moderada y grande) son de Cohen y constituyen una referencia comúnmente aceptada como guía orientadora 12. Suponemos que las k muestras son de idéntico tamaño; si son de tamaño desigual podemos utilizar el tamaño medio de las muestras (N/k) 13. pequeña
.70
ω2 = .01 f = .10 258
magnitud moderada
ω 2 = .06 f = .25 42
ω 2 = .14 f = .40 17
.80
322
52
21
.70
221
36
15
.80
274
45
18
.70
195
32
13
.80
240
39
16
.70
175
29
12
.80
215
35
14
número de grupos
potencia
3 4 5 6
grande
Tabla 6
11 Explicado por Cohen (1988:274ss, 284). Se trata de un tamaño del efecto global, teniendo en cuenta todas las diferencias de las medias con respecto a la media total (no se trata de la diferencia entre dos medias, como sucede en el
tamaño del efecto convencional). 12 Los valores de referencia seleccionados están tomados de Cohen (1988, tablas 8.4.4 y 8.4.5); también pueden verse en Kirk (1995:186 y tabla E.13). Las tablas de Cohen (válidas hasta 25 muestras) son más fáciles de consultar, y utiliza f como criterio de magnitud; otros autores como Kirk (1995) utilizan ambos valores f y ω2. Cohen utiliza el símbolo η2 en vez de ω2 (y comenta la falta de unanimidad en los símbolos en p. 282). 13 Las implicaciones del tamaño desigual pueden vese comentadas en Cohen (1988:360ss). Si las muestras mayores tienen también las mayores medias, el tamaño del efecto será mayor que si las muestras fueran de idéntico tamaño y también será mayor la potencia (y a la inversa también es verdad). Análisis de varianza: anexos
21 Los valores tabulados son el número de sujetos en cada muestra. En el caso de tres muestras, si estamos interesados en verificar solamente si hay diferencias valoradas como grandes y con una probabilidad de encontrarlas (si las hay) del 80%, necesitaremos una consideramos un buen resultado el encontrar muestra total de 21x3 = 63 sujetos; si en cambio consideramos diferencias pequeñas (pero significativas), necesitaremos una muestra total de 322x3 = 966 sujetos. Comparando los valores correspondientes a una potencia de .70 y 80 podemos apreciar cómo al disminuir el número de sujetos disminuyen las probabilidades de rechazar la Hipótesis Nula. En tablas más extensas podríamos ver que a) si tenemos tres muestras, b) estamos interesados en descubrir pequeñas diferencias (pero significativas) porque en nuestro caso las consideramos relevantes y c) sólo tenemos en torno a 20 sujetos en cada muestra, las probabilidades de tener que aceptar la Hipótesis Nula de no diferencia siendo falsa son del 90%. 4. Tamaño de la muestra en los diseños factoriales En la tabla 7 tenemos el número necesario de sujetos en cada celda cuando tenemos dos criterios de clasificación (o factores) divididos en entre dos y cuatro niveles. Suponemos que en cada clasificación hay un idéntico número de sujetos, como es usual en estos planteamientos. Suponemos también un nivel de confianza de α = .05 y una potencia (1-β) de .70 o de .80 En estas tablas los niveles (o subclasificaciones) de cada factor pueden ser 2, 3 ó 4. Para valorar la magnitud utilizamos los mismos criterios de la tabla 5 14 El número total de sujetos será igual al número de sujetos que aparece en la tabla multiplicado por el número de subclasificaciones o celdas. En una tabla 2x3 tenemos 6 celdas; si estamos interesados en detectar diferencias moderadas el número total de sujetos será 6x18 = 108. El número de sujetos especificado en la tabla 7 es suficiente para detectar si uno de los dos factores (o los dos) es estadísticamente significativo (si hay diferencias entre los niveles de cada factor, o, lo que es lo mismo, entre las medias de cada columna o de cada fila), pero en el caso de la interacción con estos mismos números la potencia es menor porque intervienen menos sujetos (no los totales de cada fila o columna sino los que hay en cada clasificación).
14 Los valores del tamaño de la muestra (en cada clasificación), puestos como referencia orientadora, están
seleccionados de las extensas tablas de Kirk (1995:401 y tabla E.13). La disposición de la tabla es una adaptación muy simplificada. Análisis de varianza: anexos
22
Tamaño de la tabla
2x2 2x3 2x4 3x3 3x4 4x4
potencia
.70 .80 .70 .80 .70 .80 .70 .80 .70 .80 .70 .80
pequeña
magnitud moderada
ω = .01 f = .10 152 193 127 158 109 134 85 106 73 90 55 67
ω = .06 f = .25 25 32 21 26 18 22 14 18 12 15 9 12
2
Tabla 7
Análisis de varianza: anexos
2
grande
ω 2 = .14 f = .40 11 13 9 11 8 9 6 7 5 6 4 5
23
Anexo VII: Métodos no paramétricos de análisis de varianza Disponemos de una serie de alternativas no paramétricas al análisis de varianza. No las exponemos aquí porque se trata de procedimientos sencillos que pueden encontrarse en muchos textos 15; en cambio sí interesa tener una visión de conjunto de estas otras posibilidades metodológicas, al menos de las más importantes. 1. Observaciones sobre los métodos no paramétricos a) En realidad en estas alternativas no se trata de análisis de varianza propiamente dicho, porque no descomponemos ninguna varianza total en varianzas parciales; con estos análisis sin embargo llegamos a conclusiones del mismo orden, sobre si entre varias muestras hay diferencias estadísticamente significativas o no las hay y pueden considerarse extraídas de la misma población. b) El término no paramétrico viene del hecho de que en estos métodos no hacemos ninguna suposición sobre las condiciones que deben darse en las poblaciones de donde proceden las muestras (un parámetro es una medida o característica de una población). Estas condiciones o supuestos ya los conocemos: 1º Unidades de intervalo en las medidas, 2º Distribución normal en las poblaciones, 3º Homogeneidad de varianzas. c) Aunque los métodos paramétricos, y el análisis de varianza en particular, son en términos generales métodos seguros aun cuando no se cumplan los supuestos previos, las alternativas no paramétricas pueden ser preferibles cuando estos supuestos se violan de manera clara, sobre todo con muestras pequeñas (y con mayor razón si son de tamaño desigual), con distribuciones claramente no normales y sobre todo con varianzas muy desiguales. d) No hay que confundir métodos no paramétricos con métodos ordinales, aunque muchos de los métodos no paramétricos son ordinales; es decir el dato que se utiliza de cada sujeto es el rango o número de orden (en otros se utilizan frecuencias acumuladas; el ji cuadrado, y otros métodos semejantes para tratar variables categóricas, son también no paramétricos). e) Los métodos no paramétricos no son una mera alternativa a los métodos paramétricos; son buenos procedimientos de análisis en sí mismos, con la ventaja añadida de su simplicidad . 2. Métodos no paramétricos más importantes análogos al análisis de varianza Los más conocidos y los que con más frecuencia se encuentran en los textos son las alternativas a la t de Student, para dos muestras independientes (el más conocido es la U de Mann-Whitney aunque hay otros métodos, como la prueba de Kolmogorov-Smirnov que utiliza frecuencias acumuladas y la prueba de las rachas de Wald-Wolfowitz) o relacionadas (como la T de Wilcoxon y la prueba de los signos que es una aplicación directa de la distribución binomial ). Por lo que respecta a lo métodos no paramétricos que pueden considerarse alternativas al análisis de varianza (para analizar más de dos muestras independientes o relacionadas) los más conocidos son los que figuran en la tabla 8. 15 En muchos textos de estadística es normal encontrar algún capítulo dedicado a estos métodos no paramétricos en
los que se explican al menos los más importantes. De la abundante bibliografía dedicada a los métodos no paramétricos es útil mencionar a Siegel (1972; la primera edición en inglés es de 1956 y sigue siendo una obra de referencia importante), Siegel, y Castellan, (1988), Gibbons (1993) y Kanji (1993). Análisis de varianza: anexos
24 Tipos de hipótesis
Hipótesis habitual: si las muestras Más de dos muestras independientes.
proceden de la misma población
Hipótesis sobre si se da una tendencia a crecer o decrecer
H de Kruskal-Wallis
Prueba de Jonckheere
(se utilizan rangos)
Prueba de Friedman
Prueba L de Page
Más de dos muestras
(se utilizan rangos)
relacionadas
Q de Cochran
(extensión de la prueba de Friedman)
(con puntuaciones dicotómicas, 1 ó 0)
Prueba de Mann (cuando n = 1)
Tabla 8 Las pruebas no paramétricas para comprobar tendencias son menos populares; de hecho no se encuentran en la mayoría de los textos. 16 La H de Kruskal-Wallis, la alternativa al análisis de varianza para varias muestras independientes más utilizada, es insensible a la no normalidad de las distribuciones, pero no es tan claro que lo sea también a la falta de homogeneidad de varianzas. 17 Un inconveniente de las dos pruebas más populares como alternativa no paramétrica al análisis de varianza, la H de Kruskal-Wallis y el test de Friedman, es que la mayoría de los textos no suelen incluir contrastes posteriores o cálculos complementarios (coeficientes de asociación del tipo η2) que ayuden a la interpretación de los resultados y por este motivo con frecuencia se estudian de manera incompleta 18. En Internet se encuentra con facilidad cómo hacer los análisis no paramétricos más comunes (también el SPSS). La H de Kruskal-Wallis y la prueba de Friedman (además de los equivalentes a la t de Student, U de Mann-Whiteny y T de Wilcoxon) Wilcoxon) se encuentran al menos en: Lowry, Richard, VassarStats: Web Site for Statistical Computation,Vassar College, Poughkeepsie, NY, USA; http://fac http://faculty.vassar.edu ulty.vassar.edu/lowry/VassarSt /lowry/VassarStats.html ats.html (menú ordinal data) Department of Obstetrics and Gynaecology, The Chinese University of Hong Kong http://department.obg.c http://dep artment.obg.cuhk.edu.hk/ind uhk.edu.hk/index.asp?scr=102 ex.asp?scr=10244 (menú frequency tables )
16 Las pruebas de Page y Jonckheere para comprobar tendencias no están descritas en el texto más conocido de
Siegel y tampoco es fácil encontrarlas en textos convencionales de estadística. Las dos pueden verse al menos en Siegel y Castellan (1988) y en Hollander y Wolf (1973, un texto de nivel alto) y en Green y d’Oliveira (1984, un texto sencillo); la de Jonckheere está tratada con mayor extensión en Leach (1982); la de Mann (muestras relacionadas y n = 1) también se encuentra en Leach (1982). 17 Lix, Keselman y Keselman, (1996). 18 Sobre cómo llevar a cabo los contrastes posteriores en el análisis de varianza no paramétrico (algo que no es fácil encontrar en la mayoría de los textos) pueden consultarse Linton, Gallo y Logan (1975), Pett (1997), Black (1999). Análisis de varianza: anexos
25
ANEXO VIII: Análisis de Varianza en Internet Son bastantes los programas que diversas instituciones ponen en Internet con acceso libre y que permiten llevar a cabo diversos tipos de análisis de varianza. Muchos de estos programas permiten importar datos (de EXCEL, tabla de Word, etc.), otros resuelven el análisis de varianza para muestras independientes a partir de los datos descriptivos básicos (from summary data: media, desviación típica y número de sujetos). Algunos de estos programas están indicados en el último apartado de análisis de varianza para muestras independientes. En el mismo lugar se indica dónde se pueden consultar diversas tablas (F, Tukey, Dunnet) y las probabilidades exactas asociadas a cualquier valor de F. Una dirección con numerosos enlaces de análisis estadísticos en las que podemos encontrar con programas para llevar a cabo distintos tipos de análisis de varianza pueden verse en Web Pages that Perform Statistical Calculations!, http://statpages.org/ Esta dirección se encuentra en John C. Pezzullo's Home Page (de Georgetown University, Washington, DC.) http://sta http://statpages.org/JCPh tpages.org/JCPhome.html ome.html (en Interactive Statistics Pages). Pages ). Esta página presenta un índice bien estructurado con enlaces a los diversos modelos de análisis de varianza y otros análisis estadísticos. Muchos de estos enlaces remiten a estas direcciones de interés general: College of Saint Benedict/Saint John’s University [ http://www.csbsju.edu/ ] http://www.physics.csbsju.edu/stats/ Department of Obstetrics and Gynaecology, The Chinese University of Hong Kong http://department.obg.c http://dep artment.obg.cuhk.edu.hk/ind uhk.edu.hk/index.asp?scr=102 ex.asp?scr=10244 GraphPad, San Diego, CA [http://graphpad.com/ [ http://graphpad.com/]] Free Online Calculators for Scientists, http://graphpad.com/quickcalcs/index.cfm Institute of Phonetic Sciences, Amsterdam (en Demos, tests, experiments →statistics) http://www.fon.hum.uva.nl/Welcome.html Lane, David M. HyperStat Online Statistics Textbook http://davidmlane.com/hyperstat/index.html Lowry, Richard, VassarStats: Web Site for Statistical Statistical Computation,Vassar College, Poughkeepsie, Poughkeepsie, NY, USA; http://fa http://faculty.vassar.ed culty.vassar.edu/lowry/Vassa u/lowry/VassarStats.html rStats.html SISA (Simple Interactive Statistical Analysis, de Consultancy for Research and Statistics, Hilversum, The Netherlands) http://www.qua http://www.quantitatives ntitativeskills.com/s kills.com/sisa/ isa/ Referencias bibliográficas BLACK , THOMAS R. (1999). Doing Quantitative Research in the Social Sciences. London: Sage. BLAND, J. MARTIN and ALTMAN, DOUGLAS G. (1995). Multiple significance significance tests: the Bonferroni method. British Medical Journal 1995;310:170 (21 January). http://www.bmj.com/cgi/content/full/310/6973/170 CICCHETTI, DOMINIC V. (1972). Extensions of multiple-range tests to interaction tables in the analysis of variance: A rapid approximate solution. solution. Psychological Bulletin, 77, 405-408. COHEN, JACOB (1988). Statistical Power Analysis for the Behavioral Sciences . Second Edition. Hillsdale, N.J.: Lawrence Elrbraum.
Análisis de varianza: anexos
26 DEPARTMENT OF OBSTRETRICS AND GYNAECOLOGY, THE CHINESE U NIVERSITY OF HONG K ONG http://department.obg.c artment.obg.cuhk.edu.hk/Res uhk.edu.hk/ResearchSupport/OW earchSupport/OWAV.asp AV.asp ONG http://dep GIBBONS, JEAN DICKINSON, (1993). Nonparametric Tests, an Introduction. Quantitative Applications Applications in the Social Sciences. Newbury Park: N.J.: Sage GRAPHPAD. San Diego, CA [http://graphpad.com/ [ http://graphpad.com/]] Free Online Calculators for Scientists http://graphpad.com/quickcalcs/posttest1.cfm GREENE, JUDITH y D'OLIVEIRA, MANUELA, (1984). Pruebas estadísticas para psicología y ciencias sociales: una guía para el estudiante . Bogotá, Colombia: edit. Norma HANCOCK , GREGORY R. and K LOCKARS LOCKARS, ALAN J., (1996). The Quest for α: Developments in Multiple Comparison Procedures in the Quarter Century Since Games (1971). Review of Educational Research, 66, (3). 269 - 306. HOLLANDER , MYLES and WOLFE, DOUGLAS A., (1973). Nonparametric Statistical Methods. New York: Wiley and Sons. JACCARD, JAMES (1998). Interaction Effects in Factorial Analysis of Variance, Sage University Paper Series on Quantitative Applications in the Social Sciences. Thousand Oaks: Sage. K ANJI ANJI, GOPAL, (1993). 100 Statistical Tests. London: Sage. K IRK IRK , R OGER OGER E., (1995). Experimental Design, Procedures for the Behavioral Sciences. Boston: Brooks/Cole. LANE, DAVID M. HyperStat Online Statistics Textbook http://davidmlane.com/hyperstat/index.html LEACH, CHRIS, (1982). Fundamentos de estadística, enfoque no paramétrico para ciencias sociales. México: Limusa. LINTON, MARIGOLD, GALLO JR .,., PHILLIP S. and LOGAN, CHERYL A., (1975). The Practical Statistician, Statistician, Simplified Handbook of Statistics . Monterey: Brooks/Cole. ESELMAN, JOANNE C. and K ESELMAN ESELMAN, H.J., (1996). Consequences of LIX, LISA M., K ESELMAN Assumption Violations Revisited: A Quantitative Review of Alternatives to the One-Way Analysis of Variance F Test. Review of Educational Research, 66 (4) 579-619. LOWRY, R ICHARD ICHARD, VASSAR STATS: Web Site for Statistical Computation,Vassar College, Poughkeepsie, Poughkeepsie, NY, USA; http://fac http://faculty.vassar.edu ulty.vassar.edu/lowry/VassarSta /lowry/VassarStats.html ts.html MCGUIGAN, F. J., (1994) Experimental Psychology, Methods of Research. Sixth edition. Englewood Cliffs, N.J.: Hall. PERNEGER , THOMAS V. (1998). What's wrong with Bonferroni adjustments. adjustments. British Medical Journal 1998; 316:1236-1238 http://www.bmj.com/cgi/content/full/316/7139/1236 PETT, MARJORIE A. (1997). Nonparametric Nonparametric Statistics for Health Care Research. Statistics for Small Samples and Unusual Distributions. Thousand Oaks & London: Sage. PEZZULLO, JHON C. Web Pages that Perform Statistical Calculations . http://members.aol.com/johnp71/javastat.html ; Analysis of Variance from Summary Data http://members.aol.com/johnp71/anova1sm.html SIEGEL, SIDNEY and CASTELLAN , JR .,., N. JOHN (1988). Nonparametric Statistics for the Behavioral Sciences . New York: McGraw-Hill SIEGEL, SIDNEY, (1972). Estadística no paramétrica aplicada a las ciencias sociales. México: Trillas. TOOTHAKER , LARRY E., (1991). Multiple Comparisons for Researchers: Sage University Paper Series on Quantitative Quantitative Applications in the Social Sciences. Newbury Park: Sage. TOOTHAKER , LARRY E., (1993). Multiple Comparison Procedures, Sage University Paper Series on Quantitative Applications in the Social Sciences. Newbury Park: Sage.
Análisis de varianza: anexos