36195AA01A01
FUNDAMENTOS DE LAS TÉCNICAS MULTIVARIANTES
M. CARMEN XIMÉNEZ GÓMEZ RAFAEL SAN MARTÍN CASTELLANOS
UNED EDICIONES
Subido por:
Libros de Ingeniería Química y más
https://www.facebook.com/pages/InterfaseIQ/146073555478947?ref=bookmarks
Si te gusta este libro y tienes l a posibilidad, cómpralo para apoyar al autor.
M. Carmen Ximénez Rafael San Martín
FUNDAMENTOS DE LAS TÉCNICAS MULTIVARIANTES
UNIVERSIDAD NACIONAL DE EDUCACIÓN A DISTANCIA
FUNDAMENTOS DE LAS TÉCNICAS MULTIVARIANTES
FUND AMENTOS DE L AS TÉCNICAS MULTI VARI ANTES
Quedan rigurosamente prohibidas, sin la autorización escrita de los titulares del Copyright, bajo las sanciones establecidas en las leyes, la reproducción total o parcial de esta obra por cualquier medio o procedimiento, comprendidos la reprografía y el tratamiento informático, y la distribución de ejemplares de ella mediante alquiler o préstamo públicos.
© UNIVERSIDAD NACIONAL DE EDUCACIÓN A DISTANCIA - Madrid,
© M. Carmen Ximénez, Rafael San Martín
ÍNDICE INTRODUCCIÓN
1
CAPÍTULO 1. NOCIONES BÁSICAS DE ÁLGEBRA DE MATRICES
1. Conceptos previos 2. Operaciones con matrices 2.1. Cálculo de la traspuesta de una matriz 2.2. Suma de matrices 2.3. Multiplicación por un escalar 2.4. Producto de dos matrices 2.5. Cálculo del determinante de una matriz 2.6. Cálculo de la matriz inversa 3. Usos de matrices y determinantes 3.1. Sistema de ecuaciones lineales 3.2. Rango de una matriz 3.3. Autovalores 3.4. Autovectores 3.5. Ejemplo resuelto 3.6. Formas cuadráticas 4. Vectores y estadísticos 5. Combinaciones lineales 6. El álgebra de matrices y el lenguaje MATRIX del SPSS
9 11 11 11 12 12 14 15 15 15 17 17 18 19 20 21 23 24
7. Ejercicios
30
CAPÍTULO 2. LA DISTRIBUCIÓN NORMAL MULTIVARIANTE
1. Concepto de distribución multivariante, marginal y condicional 2. La distribución normal multivariante 3. La distribución normal bivariante 4. Ejercicios
33 39 42 48
CAPÍTULO 3. ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE
1. Introducción 2. El modelo lineal general 3. Estimación de parámetros 3.1. Método de estimación de mínimos cuadrados 3.2. Método de estimación de máxima verosimilitud 4. Verificación del modelo
49 49 51 52 56 57
4.1. de ajuste 4.2. Medidas Contrastede debondad hipótesis 5. Análisis del cumplimiento de los supuestos 5.1. Linealidad de la relación 5.2. Independencia 5.3. Homocedasticidad 5.4. Normalidad
57 59 61 62 62 63 63
5.5. Ausencia de colinealidad 6. Simplificación de modelos 6.1. Backward (método hacia atrás) 6.2. Forward (método hacia delante) 6.3. Stepwise (método por pasos sucesivos) 7. El análisis de regresión múltiple y el lenguaje MATRIX del SPSS 8. Ejercicios
64 66 67 67 68 72 81
CAPÍTULO 4. ANÁLISIS DE COMPONENTES PRINCIPALES
1. Introducción 2. Cálculo de los componentes 2.1. Cálculo a partir de la matriz S 2.2. Cálculo a partir de la matriz R 2.3. Ejemplo 3. Geometría de los componentes 4. El análisis de componentes principales y el lenguaje MATRIX del SPSS 5. Ejercicios
83 84 85 85 86 90 91 95
CAPÍTULO 5. ANÁLISIS FACTORIAL
1. Introducción 2. Métodos de extracción de factores 2.1. Método de componentes principales 2.2. Método de ejes principales 2.3. Método de máxima verosimilitud 2.4. Método de mínimos cuadrados generalizados 3. Contrastes sobre la adecuación del análisis factorial 4. Reglas para la selección de factores 5. La rotación de factores 5.1. La rotación ortogonal 5.2. La rotación oblicua 6. Estimación de las puntuaciones factoriales 6.1. Método de Bartlett 6.2. Método de regresión 7. Ejemplo 8. El análisis factorial y el lenguaje MATRIX del SPSS 9. Ejercicios
97 102 102 104 106 106 107 108 109 110 112 112 113 113 114 118 126
REFERENCIAS BIBLIOGRÁFICAS
127
ANEXOS
131 133 134 135 136
Tabla 1. Distribución de probabilidad normal tipificada N(0, 1) Tabla 2. Distribución de probabilidad t de Student Tabla 3: Distribución de probabilidad de 2 de Pearson Tabla 4: Distribución de probabilidad F de Snedecor
Introducción Los investigadores a menudo se ven obligados a utilizar medidas múltiples para poder abordar un problema de investigación. Esto ha hecho necesario el manejo de técnicas que permitan analizar simultáneamente un conjunto de variables. La parte de la estadística que recoge estas técnicas es el análisis multivariante. No es fácil encontrar una definición única del análisis multivariante. En términos generales, puede decirse que se refiere al conjunto de técnicas estadísticas que analizan simultáneamente más de dos variables. No obstante, algunos autores plantean que lo que hace al análisis multivariante no es el número de variables sino que las variables consideradas sean aleatorias y estén relacionadas de tal forma que sus efectos no puedan analizarse separadamente. Otros autores afirman que el propósito del análisis multivariante es medir, explicar y predecir el grado de relación entre una (o más de una) combinación lineal de variables con saturaciones calculadas a través de la técnica multivariante utilizada. Una combinación de p variables ponderadas puede definirse formalmente mediante:
Y = a1 X1 + a2 X2 + … + ap Xp Donde X1,calculadas X2, … Xp son las variables observadas y a1, a2, empleada. … ap son las saturaciones mediante la técnica multivariante El resultado es un único valor ( Y) que representa la combinación del conjunto de variables que mejor logra el objetivo de la técnica multivariante en cuestión (reducir la información, clasificar sujetos, etc.). Las técnicas de análisis multivariante pueden utilizar diferentes tipos de variables: cuantitativas, cualitativas o una combinación de ambas. Asimismo, pueden tratar con variables independientes y/o dependientes, que pueden estar relacionadas entre sí en diferente grado y ser observadas o latentes. Existen diferentes técnicas multivariantes. El objetivo de la mayoría es resumir un amplio conjunto de datos mediante el menor número posible de parámetros. La elección de la técnica más adecuada depende de los objetivos de la investigación, del tipo de datos y de si el análisis se refiere a la relación entre variables o entre casos. Cualquier intento de clasificar las técnicas multivariantes es difícil pues no existe consenso sobre cuál de ellos es el más apropiado para decidir cuándo utilizar cada una de las técnicas. Aquí se ha tomado la clasificación elaborada por Hair, Anderson, Tatham y Black (1998) con el objetivo de dar una visión general de las técnicas multivariantes más empleadas en contextos
2
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
aplicados (ver figura 1). Estos autores clasifican las técnicas multivariantes según el tipo de relación que se establece entre las variables (de dependencia o de interdependencia) y según el tipo de escala de medida que utilizan las variables (cuantitativa o cualitativa). (1) Relación de dependencia. Algunas técnicas multivariantes identifican a un conjunto de variables como las que se desea predecir o dependientes y a otras como las explicativas de las primeras o independientes. Dentro de estas técnicas se encuentran las siguientes: Si se toma como criterio el número de variables dependientes y su nivel de medida (cuantitativo y/o cualitativo) se dispone de diferentes técnicas de análisis multivariante. Por ejemplo, el análisis de regresión múltiple, que tiene como objetivo explicar la variación en una variable dependiente cuantitativa a partir de la variación en dos o más variables independientes (generalmente cuantitativas aunque también pueden ser cuantitativas y cualitativas). El análisis conjunto es similar a la regresión múltiple con la diferencia de que todas las variables independientes son cualitativas. Si la variable dependiente es cualitativa y las independientes cuantitativas se aplica la técnica del análisis discriminante. Si las independientes son cualitativas también puede utilizarse el análisis conjunto que permite evaluar subconjuntos de posibles combinaciones de los niveles de las variables en lugar de todas las posibles combinaciones. Si la variable dependiente es dicotómica se utiliza la regresión logística que tiene la ventaja de que no precisa asumir normalidad multivariante ni homogeneidad entre grupos. En este mismo caso, es decir, variable dependiente dicotómica pero con variables independientes cuantitativas y cualitativas pueden emplearse los modelos logit que tampoco requieren asumir normalidad (la monografía de Pardo, 2002, de esta misma colección, trata este tipo de modelos en detalle). Cuando se trabaja con varias variables dependientes cuantitativas y dos o más variables independientes cuantitativas se aplica el análisis de correlación canónica, o el análisis de varianza multivariante (MANOVA) si las variables independientes son cualitativas (el manual de Neter, Kunter, Nachtsheim & Waserman, 1996 aborda la relación entre regresión, MANOVA, etc.). Si las variables dependientes están en múltiples relaciones con variables independientes también cuantitativas y se formula una ecuación para cada variable la técnica multivariante estimar los parámetros de todasdependiente, las ecuaciones simultáneamente es lapara de modelos de ecuaciones estructurales (la monografía de Ruiz, 2000, de esta misma colección, trata estos modelos en detalle). Resumiendo, cada una de las técnicas multivariantes que analizan relaciones de dependencia se relacionan del siguiente modo:
INTRODUCCI N
3
Y1
= X1 + X2 + … + Xp (Cuantitativa) (Cuantitativas y cualitativas) … Análisis de regresión múltiple (Cualitativa) (Cuantitativas) ……….……. Análisis discriminante (Dicotómica) (Cuantitativas) ……….……. Regresión logística (Cuantitativa o cualitativa) (Cualitativas) ……….……... Análisis conjunto
Y1(+Cuantitativas Y2 + … +)Yk =(Cuantitativas X1 + X2 + )……………….. + Xp Análisis de correlación canónica (Cuantitativas) (Cualitativas) ……………… MANOVA Y1 Y. 2 .. Yk (Cuantitativas)
= X11 + X12 + … + X1p = X21 + X22 + … + X2p = Xk1 + Xk2 + … + Xkp (Cuantitativas) …………….. Modelos de ecuaciones estructurales
(2) Relación de interdependencia. Algunas técnicas multivariantes no necesitan clasificar a las variables como dependientes o independientes sino que analizan todas las variables simultáneamente. El objetivo es encontrar la estructura al se conjunto de variables o de casos que son analizados. Dentro de subyacente estas técnicas encuentran las siguientes: Si lo que se analiza es la relación entre variables, las técnicas multivariantes para simplificar la estructura del fenómeno estudiado son el análisis de componentes principales y el análisis factorial. En psicología existen numerosas investigaciones que aplican estas técnicas, sobre todo el análisis factorial en el ámbito de la inteligencia y la personalidad. Si lo que se desea agrupar son casos se utiliza el análisis de conglomerados, aunque esta técnica también se puede utilizar para agrupar variables. Por último, si el interés está en la estructura de un conjunto de objetos hay que aplicar técnicas de escalamiento multidimensional. Como en las relaciones de dependencia, en este caso también hay que tener en cuenta el nivel de medida de las variables (cuantitativo y/o cualitativo). el análisis el cuantitativas, análisis de aunque conglomerados generalmente En se necesita que lasfactorial variablesysean también es posible llevar a cabo ambos análisis con variables cualitativas. En el escalamiento multidimensional los atributos de los objetos se miden de forma cuantitativa. Si los atributos estuvieran medidos de forma cualitativa, se aplicaría el análisis de correspondencias.
S E T N IA R A V I T L U M S A IC N C É T S A L E D S O T N E M A D N U F
4
est n ai ar itv l u m s cia n étc sa l e d n ó cai ci f sia l .C 1 ar u g i F
A I C N E D N E P E D R E T IN
n ó i c la e r e d o ip T
A I C N E D N E P E D
se l b ria v rte n e se n o i acl e R
s
S E L B A I R A V S A I R A V
D V S E T N E I D N E P E D
E L B A I R A V A N U
D V E T N E I D N E P E D
se la p ci in r p se t en n o p m o c e d si si lá n A
la ri to ca f s siil á n A
s o d rae m o lg n o c e d si si ál n A
-
-
-
n ió alc er al o s a n u n e sa v i att it an u C
a v tia t tia n u C
s aso c e tr n e se n o i acl e R
s o d ar e m o l g n o c e d si si ál n A -
cia n ó n ca n ó cia el
as iv itat n a u c sI V n o C
-
n ó is er erg e d si ális n A
o t n u j n co el si ltip ális ú n m A
-
r co e d s sii lá n A
-
a v it at it an u c
s o t jeb o rte n e es n o i acl e R
am r o f e d so d id e M
as v tiat lai u c sI V n o C
a itv a alit u C
et an i ar iv lt u m za n a ria v e d iss i ál n A
la n o is n e m i id lt u m to n ei alm ac s E
sa ci en d n o p rres o c e d iss i ál n A
a v tia itl a u c a m r o f ed so d i d e M
-
-
se n o i ac
n e as iv itat an u c sI V y s D V
es n o cia l re s le til ú m
te n a i si n ális crim n si A d
o t n u j n co si ális n A
cia ts í g lo n ió s re eg R
ti g lo s lo e d o M
-
-
-
-
) A V O N A (M
-
). 1 2 0 2 . g á (p 8 9 9 1 , k c la B y am th a T , n
ecu e d s o le d o M -
se la r u tc u r ste
re so d n A r,i a H e d o d a m o T a:t o N
INTRODUCCI N
5
La clasificación de Hair et al. (1998) presentada aquí, tan sólo hace referencia a las técnicas multivariantes basadas en modelos lineales. No obstante, también hay técnicas multivariantes basadas en modelos no lineales. Dentro del grupo de las que estudian las relaciones de dependencia entre las variables se encuentra por ejemplo la metodología de superficies de respuesta. Se trata de un conjunto de técnicas matemáticas y estadísticas eficaces para el desarrollo e interpretación de ecuaciones polinomiales (ver Box & Draper, 1987; Myers & Montgomery, 1995). Esta técnica proporciona la base necesaria para describir las características de las superficies de respuesta de ecuaciones de regresión complejas.esenciales Tradicionalmente, ha sido empleada en la industria física y química y en otros campos aplicados pero también se ha utilizado en contextos educativos y está empezando a suscitar interés en contextos de investigación social (véase Ximénez y San Martín, 2000). Dentro del grupo de las técnicas que estudian relaciones de interdependencia está el análisis factorial no lineal, introducido por McDonald (1962, 1967) para ofrecer aproximaciones más realistas sobre la relación entre las variables observadas y los factores y un mejor ajuste. Se han publicado diversos trabajos con discusiones teóricas y estudios de simulación sobre el análisis factorial no lineal (para un resumen véase Yalcin & Amemiya, 2001; y Zhu & Lee, 1999) pero hasta el momento ha habido pocas aplicaciones empíricas de este procedimiento. Para una revisión más extensa sobre técnicas multivariantes basadas en modelos no lineales puede consultarse el manual de Gifi (1996). Según Hair et al. (1998), la aplicación exitosa de una técnica multivariante no depende exclusivamente de seleccionar la técnica más adecuada sino que se trata de un proceso que ha de cumplir ciertos pasos. En primer lugar es necesario definir el problema de investigación y los objetivos del análisis en términos conceptuales. Una vez definidos estos conceptos, se especifican las variables, la escala de medida que utilizan (cuantitativa y/o cualitativa) y el tipo de relación que se establece entre ellas. Por ejemplo, en una relación de dependencia es necesario especificar la(s) variable(s) dependiente(s) y las variables independientes. Con el modelo conceptual y la especificación de las variables y sus escalas de medida, ya es posible seleccionar la técnica multivariante más adecuada para el objetivo de análisis. En segundo lugar, una vez seleccionada la técnica multivariante a emplear, es necesario determinar el tamaño muestral mínimo requerido, el método de estimación de parámetros y todos los elementos necesarios para llevar a cabo la recogida de datos. En tercer lugar, una vez recogidos los datos, hay que evaluar el cumplimiento de los supuestos que requiera la técnica multivariante. Por ejemplo, la normalidad multivariante, la linealidad, la independencia, la homogeneidad, etcétera. En cuarto lugar, se estiman los parámetros del modelo multivariante y se evalúa el ajuste del modelo. Por último, si existe
6
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
un ajuste aceptable, hay que interpretar la relación multivariante especificada en el modelo. Las técnicas multivariantes parten de unas puntuaciones de n unidades de análisis sobre p variables y suelen expresarse de modo compacto en términos matriciales. Por ello, el primer capítulo de esta monografía tiene el objetivo de resumir las nociones básicas sobre álgebra de matrices que es necesario conocer para manejar las técnicas multivariantes. El capítulo 2 se dedica a la definición de distribución multivariante, marginal y condicional y en particular a la distribución normal multivariante pues muchas de las técnicas multivariantes asumen que los datos siguen una distribución normal. La principal razón es que la distribución normal multivariante es mucho más sencilla de manejar matemáticamente que otras distribuciones multivariantes. No obstante, cuando los datos no son normales, se pueden llevar a cabo transformaciones para que se aproximen a la normalidad y utilizar diferentes técnicas de estimación de parámetros. Resumir todas las técnicas multivariantes que aparecen en la figura 1 excedería los objetivos de una obra de esta colección. Por esta razón se ha optado por elegir una técnica que estudie las relaciones de dependencia y otra que estudie las relaciones de interdependencia. Dentro de las del primer grupo se ha seleccionado la regresión múltiple por ser una de las técnicas más empleadas en contextos aplicados. Dentro de las del segundo grupo se ha seleccionado el análisis factorial por su relevancia especialmente en la psicometría. Asimismo, se introduce brevemente al lector en el análisis de componentes principales, pues su similitud con el análisis factorial hace que a menudo ambas técnicas se confundan. De este modo, en el capítulo 3 se expone el análisis de regresión múltiple, en el capítulo 4 el análisis de componentes principales y en el capítulo 5 el análisis factorial exploratorio. No se entra en la descripción del análisis factorial confirmatorio puesto que puede consultarse en la monografía de Ruiz (2000) de esta misma colección. El manejo de las técnicas multivariantes con amplias muestras de sujetos sería impensable sin la ayuda de los ordenadores personales. Existen diversos paquetes de software estadístico que permiten implementar con facilidad los complejos cálculos que demandan este tipo de técnicas. Por ejemplo el SPSS, el SAS, el STATGRAPHICS, el SYSTAT, el S-PLUS, etc. Aquí se hace referencia tan ysólo al SPSS MATRIX para con matrices ejecutar caday su unalenguaje de las técnicas que se realizar exponen,operaciones aunque la mayoría de los programas ofrecen formatos similares. Existen diversos manuales sobre el análisis multivariante. La mayoría en inglés, aunque algunos han sido traducidos al castellano. Por ejemplo el de Hair et al. (1998) que es un manual sencillo y orientado más a la aplicación
INTRODUCCI N
7
de las técnicas que a su formulación teórica. Otros manuales más teóricos son el manual clásico de Maxwell (1977), el de Dillon y Goldstein (1984), el de Anderson (1984) y el de Johnson y Wichern (2002). Este último es especialmente recomendable pues combina formulaciones matemáticas con explicaciones sencillas y ejemplos aplicados. Dentro de la disciplina de la estadística y las matemáticas también se han publicado diversos manuales sobre el análisis multivariante. Por ejemplo el de Arnold (1981), Carroll (1987), Krzanowski (2000), Mardia, Kent y Bibby (1997), Neil (2002), Rencher,hay (1995) Takeuchi, Yanaique y Mukherjee (1982).monográfica Además decada los citados, otros ymuchos manuales abordan de forma una de las técnicas multivariantes y se irán citando a medida que se haga referencia a cada una de ellas en el capítulo correspondiente.
Capítulo 1. Nociones básicas de Álgebra de Matrices En este capítulo se pretende sintetizar los contenidos de álgebra de matrices básicos para una compresión adecuada de las técnicas de análisis multivariante. Para más detalle, se pueden consultar diferentes manuales. Por ejemplo, el de Basilewsky (1983), Namboodiri (1984), Searle (1982) y Winter (1992). Y en castellano el de Amón (1991) y el de Herstein y Winter (1989).
1. Conceptos previos Definición y tipos de matrices
Una matriz es una forma de organizar los datos en filas y columnas que proporciona un punto de partida útil para su descripción (Searle, 1982). Supóngase que se tienen las siguientes puntuaciones sobre el rendimiento de 3 sujetos en cuatro pruebas de atención: Pruebas de atención Sujetos: 1 2 3 4 1 12 15 17 19 2 15 7 9 10 3 11 13 15 15 Los números que aparecen en la tabla pueden escribirse del siguiente modo: 12 15 11
15 7 13
17 9 15
19 10 15
Donde las filas contienen a los sujetos y las columnas a las pruebas sobre atención. Por ejemplo, la segunda fila y tercera columna contiene al número 9 que representa la puntuación del sujeto 2 en la prueba 3. Esta disposición rectangular de los datos en n filas y p columnas se denomina matriz de orden n x p y se representa mediante: a11 a 21 A n p
a12 a 22
a1 j a2 j
aij
a nj
a i1 a i 2 a n1 a n 2
a1 p a 2 p aip a np
Las matrices se designan aquí mediante letras mayúsculas en negrita (en el ejemplo: A) y sus elementos mediante letras minúsculas con subíndices
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
10
(aij, donde i son las filas y j las columnas). Los elementos en los que i = j se denominan elementos diagonales (aii). Una forma más abreviada de expresar una matriz es mediante: A = [ a]ij
i = 1, 2, ..., n y
para
j = 1, 2, ..., p
(1.1)
El tamaño y tipo de elementos de la matriz hace que sea posible distinguir entre varios tipos de matrices: sólo de(vector n filasfila). y una ymatrices de una que fila yconstan p columnas Se expresan con letras minúsculas en negrita.
a. Vectores columna y fila: columna (vector columna)
Ejemplo 1. Vector columna:
a
5 2 4
Ejemplo 2. Vector fila: a ' 5 2 4 b. Matriz rectangular: es aquella en la que se cumple que n
Ejemplo 3:
A 2 3 =
p.
2 3 5 0 4 1
c. Matriz cuadrada: es aquella en la que se cumple que n = p.
Ejemplo 4:
B =
1 2 7
tr(B) = 1 + 5 + 9 = 15
2 10 9
3 5 6
En las matrices cuadradas se puede calcular la traza de la matriz que es la suma de los elementos de la diagonal principal. Es decir: tr(A) = aii. En el ejemplo 4, es 15. que se cumple aij = aji. O lo que es lo multivariante es frecuente trabajar con matrices simétricas. Por ejemplo, la matriz de covarianzas (S) y la matriz de correlaciones (R):
d. Matriz simétrica: matriz en la mismo, A = A'. En el análisis
S
s12 s 21
s12 s 22
s p1
s p2
s1 p s2 p
;
s 2p
R
1 r 21 r p 1
r12 1
rp2
r1 p r2 p 1
e. Matriz nula: se denomina matriz 0 pues todos sus elementos son 0.
Ejemplo 5:
0=
0 0 0 0 0 0
NOCIONES B SICAS DE LGEBRA DE MATRICES
11
f. Matriz diagonal: es aquella en que todos los elementos, excepto los de la
diagonal principal, son nulos. Por ejemplo: Ejemplo 6:
s12 0 0
D =
g. Matriz escalar (K):
; s 32
0
0 0
s 22 0
D
1/ 2
=
s1 0 0
0 s2 0
0 0 s 3
matriz diagonal en la que todos los elementos no
nulos son iguales. Ejemplo 7:
A =
3 0 0
0 3 0
h. Matriz identidad (I):
0 0 3
matriz diagonal cuyos elementos de la diagon
principal son 1.
2. Operaciones con matrices 2.1. Cálculo de la traspuesta de una matriz
La traspuesta de una matriz A de orden n x p se calcula intercambiando las filas y las columnas de forma que se obtiene la matriz A' de orden p x n donde la i-ésima fila de A es la j-ésima columna de A'. A continuación se presenta un ejemplo: Ejemplo 8:
A
3 2 ; 0 1
A'
3 0 2 1 ;
3 2 ( A ' )' A. 0 1
Se verifica que: tr(A) = tr(A'). 2.2. Suma de matrices A + B = [aij + bij]
para i = 1, 2, ..., n y
j = 1, 2, ..., p
(1.2)
Para sumar dos matrices es necesario que sean conformables, es decir, que tengan el mismo orden. Ejemplo 9:
A
5 4
2 y 1
B
3 4
2 ; 6
A
B
8 8
4 7
Además de las propiedades asociativa y conmutativa, se cumplen las siguientes: (A + B)' = A' + B' tr(A + B) = tr(A) + tr(B)
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
12
2.3. Multiplicación por un escalar
Según lo visto en la suma de matrices puede establecerse que: A + A = [aij] + [aij] = [2 aij] = 2A Extendiendo esto al caso en que k es un escalar: kA = Ak = [kaij]
(1.3)
Por tanto, cada elemento de la matriz A queda multiplicado por k. Ejemplo 10:
A
3 1
2 5
y k 2;
3 kA 2 1
2 6 5 2
4 10
2.4. Producto de dos matrices
Para entender como se multiplican dos matrices, previamente se necesario introducir el concepto de producto de vectores, también llamado producto interno de vectores. El producto interno de vectores, |ab|, es el número que resulta de la suma de los productos cruzados de los elementos de a y b. Es decir: |ab| = aib;i Donde: |aa| = |a| = a'a = ai2 (1.4) Ejemplo 11:
a
a
b
1 0 y 1
2 2 1 ; ab a ' b 1 0 1 1 1( 2) 0(1) 1(3) 5. 3 3 1 1 0 1 0 1 2 0 2 1 2 2 . 1 2 2 1 3 1 2 2 1 2 3 2 14 . 3 b
La longitud de un vector se obtiene calculando la raíz cuadrada de su producto interno. Es decir: ||a|| =|a|1/2 = (a'a) 1/2 En el ejemplo 11: ||a|| = 2 ;
(1.5)
||b|| = 14 .
Se denomina vector unitario o normalizado (u) aquel cuya longitud es la unidad: a (1.6) u ; donde: =u1'u a
En el vector a del ejemplo 11:
NOCIONES B SICAS DE LGEBRA DE MATRICES
13
1/ 2 1 1/ 2 1 . Y se puede comprobar que: u' u 1/ 2 0 1/ 2 0 1. 0 0 u 2 1/ 2 1 1/ 2
Dos vectores son ortogonales si su producto interno es nulo. Es decir: |ab| = 0
(1.7)
Dos vectores son ortonormales si son ortogonales y normalizados. Una matriz es ortogonal cuando todos sus vectores son ortonormales. Es decir: AA' = I
A-1 = A'
(1.8)
Ejemplo 12: Dada la matriz A con vectores a1 y a2:
0.707 0.707 a1 'a1 0.7072 0.7072 1; a2 'a 2 (0.7072 ) 0.7072 1 ; 0.707 0.707 | a1 'a 2 | 0.707(0.707) (0.707)0.707 0
A
Vistos estos conceptos, a continuación se introduce el del producto de dos matrices. Si se multiplican las matrices A x B se obtiene la matriz C, cuyos elementos cij se obtienen de los productos internos |ai' bj|. A y B, éstas deben ser conformables. La ParaA multiplicar matriz ha de tenerlas el matrices mismo número de columnas que de filas tenga la matriz B. De este modo la matriz C contiene el mismo número de filas que A y de columnas que B. Es decir: An x p x Bp x m = Cn x m
Ejemplo 13:
A
AB
23
4 5
C
2 2
2 1
4 5
3 2
B
3 2
2 2 3 1 4 4 2 1 2 1 5 4
(1.9)
2 1 4 2
1
3 5 2
3 3 5 2 22 3 19 2 5 2
28 24
Nótese que en este caso se verifica la propiedad asociativa (A(BC) = (AB)C) pero no la conmutativa (AB BA). Como puede verse, en el ejemplo 13: A2x3 x B3x2 = C2x2; mientras que: B3x2 x A2x3 = C3x3.
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
14
2 2 3 4 2 3 BA C33 1 5 5 1 2 1 4 2 4
4 2 3 2 3 5 1 4 2 5 1 5 5 1 4 2 2 4 2 5 1
3 2 3 2 23 7 12 3 1 5 29 7 13 2 26 10 16 3 4 2 2
Del mismo modo: a'a
1 1 2 5 2
y
aa '
1 1 2 2 1 2 2 4
Otras propiedades del producto de matrices son las siguientes: AI = IA = A A(B+C) = AB + AC A2 = A A (si A es cuadrada). tr(AB) = tr(BA) (si AB es cuadrada). |AB| = |A| |B| (si A y B son cuadradas y del mismo orden). (ABC)' = C' B' A'
(1.10)
2.5. Cálculo del determinante de una matriz A. Se Un determinante, |A|, productos es un polinomio los elementos de la matriz calcula sumando ciertos de los de elementos de A según unas reglas. El determinante sólo puede definirse en matrices cuadradas.
En matrices 2 x 2 su cálculo es muy sencillo. Ejemplo 14:
A
3 1
2 ; 4
|A| = 3(4) – 2(1) = 10
En matrices 3 x 3 su cálculo puede realizarse mediante ‘la regla de Sarrus’. El procedimiento consiste en ampliar la matriz añadiendo las dos primeras columnas de la matriz a la derecha. Como muestra el ejemplo 15, el determinante se obtiene sumando los productos de la diagonal principal y restando los productos de la otra diagonal. 4 1 2
Ejemplo 15: A 2 5 1 3 6 2
4 1 2 4 1 | A | (4)(5)(2) (1)(1)(3) (2)(2)(6) 2 5 1 2 5 (2)(5)(3) (4)(1)(6) (1)(2)(2) 9. 3 6 2 3 6
Si el determinante es distinto de cero (|A| 0), se dice que la matriz es regular, como las matrices de los ejemplos 14 y 15. Si el determinante es cero (|A| = 0), se dice que la matriz es singular.
NOCIONES B SICAS DE LGEBRA DE MATRICES
15
Para obtener determinantes de matrices n x n se suman los n! productos de los elementos de la matriz teniendo en cuenta que cada producto sólo puede contener un elemento de una fila o columna de la matriz (para más detalle, ver Searle, 1982, pág. 89). 2.6. Cálculo de la matriz inversa
La inversa de una matriz, se denota por A-1 y es aquella tal que AA-1 = A A = I. Sólo puede obtenerse para matrices cuadradas y regulares mediante la fórmula: 1 A 1 A A | A| -1
Donde AA es la matriz adjunta de A'. Esta matriz contiene los elementos Aij (los adjuntos) que se calculan mediante la expresión: Aij = (-1)i+j Aij. Donde Aij es una matriz de orden n – 1 que se obtiene eliminando la fila i y la columna j de A', y Aij es su determinante. A continuación se presentan dos ejemplos: Ejemplo 16:
A'
3 2
1 ; 4
1 1 4 2 0 .4 0 .2 AA |A| 10 1 3 0.1 0.3
A 1
6 2 3 2 3 6
1 2 4 2 4 1
Ejemplo 17: 5 4 2 3 1 ; 2 A' 1 5 6 A A 2 1 2 1 2 5 A 1
1 |A|
AA
6 2 3 2 3 6
1 2 4 2 4 1
5 1 2 1 2 5
4 10 9 1 2 0 3 21 18
4 10 9 0.44 1.11 1 1 1 2 0 0.11 0.22 0 9 3 21 18 0.33 2.33 2
Si A es simétrica A-1 también lo es. Además, si A y B son cuadradas y del mismo orden: (A')-1 = (A-1)' -1
-1
(AB) = B A
-1
3. Usos de matrices y determinantes
(1.11)
3.1. Sistema de ecuaciones lineales
Las operaciones que se han visto en el anterior apartado son necesarias para resolver un sistema de ecuaciones lineales del tipo:
16
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
a11 x1 a12 x2 ... a1 p x p c1 a21 x1 a22 x2 ... a2 p x p c2 Matricialmente: Ax c; an1 x1 an2 x2 ... anp x p c p
a11 a12 a a 21 22 an1 an2
a1p x1 c1 a2 p x2 c2 anp x p c p
Donde A es la matriz de coeficientes, x el vector de incógnitas y c el vector de términos independientes. El sistema lineal A x = c puede resolverse mediante la regla de Cramer: x = A-1 c
Para emplear esta regla es necesario que la matriz A sea regular. El sistema puede ser compatible (con solución) o incompatible (sin solución), determinado (con solución única) o indeterminado (con varias soluciones). El siguiente ejemplo muestra el caso general; es decir, el de sistemas de ecuaciones lineales con solución única: Ejemplo 18: 2 x 1 3 x 2 7 ; 2 3 x 1 3 x 1 x 2 5 3 1 x 2 x A -1c;
7
; 5
A 11
x1 1 1 3 7 1 22 2 x 11 3 2 5 11 11 1 2
El ejemplo 18 se trata de un sistema no homogéneo donde A es regular. Considérese este otro ejemplo: Ejemplo 19: 3 x1 2 x 2 4
; 15 x1 10 x 2 20
3 2 15 10
x1 4 x 20 ; 2
A
0.
A
1
no existe.
En el ejemplo 19, la matriz A es singular y la segunda ecuación es redundante, simple múltiplo de la primera. Esto implica que el sistema puede tener varias soluciones o ser incompatible. Si por ejemplo se consideran las siguientes ecuaciones: Ejemplo 20: x 1 x 2 2 3 x1 3 x 2 4
En el ejemplo 20, si una ecuación es cierta la otra no. Por tanto, el sistema es inconsistente. En síntesis, el cuadro inferior muestra un resumen de las soluciones a diferentes tipos de sistemas de ecuaciones lineales (para más detalle véase Searle, 1982; págs. 227-256):
NOCIONES B SICAS DE LGEBRA DE MATRICES
Ecuaciones lineales: A x = c Sistema no homogéneo con A 0 0 c con A = 0 Sistema homogéneo con A 0 c=0 con A = 0
17
Solución: Única Varias o solución incompatible Trivial Varias (y la trivial)
3.2. Rango de una matriz
El rango una matriz, simbolizado mediante que r(A),existen es el en número de vectores (fila ydecolumna) linealmente independientes la matriz A.(1) r(A) es siempre un número positivo igual o menor al número de filas ( n) o columnas (p) de A. Es decir: 0 r(A) min(p, n) Propiedades: (1). Si A es una matriz cuadrada su rango no puede exceder su orden: r(A) p. (2). Si A es una matriz regular (| A| 0) de orden p, entonces r(A) = p. (3). Si A es una matriz singular (| A| = 0) de orden p, entonces r(A) < p. (4). r(A) = r(A'). (5). r(A'A) = r(AA') = r(A) = r(A'). El rango es una de las características más importantes y útiles de una matriz y en álgebra de matrices a menudo se utiliza más incluso que el determinante. 3.3. Autovalores
Si A es una matriz cuadrada de orden p y un escalar tal que:
A – I = 0
(1.12)
es el autovalor, valor propio o raíz latente de A.
A – I = 0 (también denominada ecuación característica de A) es una ecuación polinomial de de orden p; es decir con p raíces ( 1, 2, ..., p). Ejemplo 21:
1 4 ; 9 1
A
A
35 ;
A I
1 4 (1 )(1 ) - 36 9 1
2 2 35 0; 2 42 140 1 75 2 (1)
Téngase en cuenta que el número máximo de columnas independientes es igual al número máximo de filas independientes. Para saber si un conjunto de vectores es linealmente independiente o dependiente se puede aplicar la fórmula (1.7). También puede saberse calculando el determinante de A. Si A 0, hay independencia y si A= 0, dependencia.
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
18 Ejemplo 22:
A
1 1 0 0 2 0; 1 1 0
A 0; A I
(1) 1 0 ( 2 ) 0 0 0 0 (2) 0 (1) 1 1 1 1 1
1 2 (1 )(2 )() 3 32 2 2 3 2 0; 2 1 3 0 Propiedades de los autovalores:
1. i = tr(A) ...................... En el ejemplo 21 se demuestra que 7 – 5 = 1 + 1 2. i = A ....................... En el ejemplo 22 se demuestra que (2) (1) (0) = 0 3. Si A = 0, al menos un i es 0 ............ En el ejemplo 22 A = 0 y 3 = 0 4. r(A) es el número de i distintos de 0 ... En el ejemplo 21: r(A) = 2 3.4. Autovectores
Siendo A una matriz cuadrada, un escalar y x un vector no nulo, si: Ax=x
(1.13)
Entonces x es un autovector, vector propio, característico o latente de A. Ax=x
(A- I) x = 0 es un sistema homogéneo. Tendrá soluciones
distintas de 0 si A – I = 0. Es decir, si es un autovalor de A. Hay tantos autovectores independientes de A como autovalores. Los autovectores para el ejemplo 21 son: A
1 4 ; 9 1
A
35 ;
A
7 I 0; 1 2 5
1er autovector: (A I)x 0; 6 4 x11 0; 6x11 4x21 0; x11 2 ; 1 1 9 6 x 9x11 6x21 0 x21 3 21 2º autovector: (A I)x 0; 6 4 x12 0; 2 2 9 6 x 22 Autovectores normalizados: x '1 x 1 13 ; Matriz de autovectores normalizados:
U
6x12 4x22 0 x12 2 ; 9x 6x 0 ; x 12 22 22 3 u1
0 . 56 0 . 83
x1 x1
2 3
x1
x2
2 3
0 . 56 ; u2 0.56 0.83 0 . 83
0 . 56 0 . 83
NOCIONES B SICAS DE LGEBRA DE MATRICES
19
Propiedades de los autovectores: 1. Si A es simétrica sus autovectores son ortogonales. 2. Dada A (simétrica), (matriz diagonal que contiene los autovalores) y U (matriz de autovectores normalizados): A = U U' A-1 = U -1U' = UAU' 3.5. Ejemplo resuelto
Sistema homogéneo: 2 x1 4 x 2 0; 2 4 x1 0 . A 4; r ( A) 2 vectores independientes 4 x1 6 x 2 0 4 6 x 2 0 x1 1 6 4 0 0 x A 1c; . Solución única (trivial) 4 4 2 0 0 x2
Autovalores: AI
(2 ) 4 8 64 16 1 8.47 (2 )(6 ) 16 2 8 40; i 4 (6 ) 2 2 0.47
Se comprueba que: 1. 1 + 2 = 8.47 + (-0.47) = 8 = tr(A). 2. (1) (2) = 8.47(-0. 47) = -4 = A . 3. Todas las raíces son no nulas. 4. Hay dos raíces distintas de 0: r(A) = 2.
Autovectores: 1º: (A I)x 2 8.47 1
1
4
x21
4 x11 6.47 4 x11 0 6.47x11 4x21 0 ; 6 8.47 x21 4 2.47 x21 0 4x11 2.47x21 0
6.47 x 1.62 x11 ; 4 11
2º: (A I)x 2 0.47 2 2
4
x12
x '1 1 1.62 ; x 1' x 1 1 . 90 u '1 0 . 526 0 . 851
4 x12 2.47 4 x12 0 2.47x12 4x 22 0 ; 6 0.47 x 22 4 6.47 x 22 0 4x12 6.47x 22 0
4 x 1.62x22 ; x ' 2 1 .62 1; x ' 2 x 2 1 .90 2.47 22 u ' 2 0 .851 0 .526
Como A es simétrica, se comprueba que: U U'
0 0.526 0.851 2 4 0.526 0.851 8.47 0.851 0.526 0 0.47 0.851 0.526 4 6 A
UAU'
0 0.526 0.851 2 4 0.526 0.851 8.47 0.851 0.526 4 6 0.851 0.526 0 0.47
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
20
3.6. Formas cuadráticas
Siendo A una matriz cuadrada y simétrica y x un vector de p elementos no nulos, se llama forma cuadrática a la expresión: Q x' Ax x1 x2
a11 a12 a a xp 21 22 ap1 ap2
a1p x1 a2 p x2 ai1xi x1 ai2 xi x2 ... aipxi xp app xp
aij xi x j aii xii2 aij xi x j aii xii2 (aij a ji ) xi x j i
j
i
i j
i
(1.14)
i j
Ejemplo para A 2 x 2: Q x' Ax x x a11 a12 x1 a x 2 (a a ) x x a x 2 1 2 12 21 1 2 22 2 11 1 a21 a22 x2 Como se observa, x' A x es una función cuadrática de las x e incluye todos los elementos posibles de segundo orden. Propiedades: 1. Para x = 0 todas las formas cuadráticas Q son 0. 2. Si Q > 0 para todo x 0, entonces x' A x (y por tanto A) es definida positiva. Donde A es regular, r(A) = p y todos sus autovalores son positivos. 3. Si Q 0 para todo x, entonces A es semidefinida positiva. Donde A es singular, r(A) < p y sus autovalores son positivos con uno al menos nulo. 4. A sería definida negativa (r(A) = p y sus j < 0) si –Q es definida positiva y semidefinida negativa (r(A) < p y sus j 0) si –Q es semidefinida positiva. 5. Si A es definida positiva con autovalores 1 2 … p 0 y autovectores a1, a2, ..., ap, entonces Q es máxima para el máximo valor de con la restricción x'x = 1. Es decir: Q = x' A x = x' i x = i x'x = i (1.15) Ejemplo 23:
A
1 0 2 2 : definida positiva ; Q x' Ax x1 x 2 ; Q 0 0 1
Obsérvese que: |A| = 1; r(A) = p = 2. AI
Ejemplo 24:
0 (1 )(1 ) 0; 1 . 1 1 2 0 1
1 -1 2 2 2 : semidefinida positiva ; Q x1 x2 2x1 x2 (x1 x2 ) ; Q 0 -1 1
B
Obsérvese que: |B| = 0; r(B) = 1.
NOCIONES B SICAS DE LGEBRA DE MATRICES B I
21
1 1 (1 )(1 ) - 1 ( 2) 0; 1 2; 2 0. 1 1
Las formas cuadráticas tienen muchos usos en el análisis multivariante.
4. Vectores y estadísticos Los estadísticos descriptivos pueden expresarse mediante vectores. La siguiente tabla resumesulacálculo: forma matricial de algunos estadísticos y de las matrices que facilitan Estadístico
Forma matricial
Puntuaciones diferenciales
1 X i n xi X i X
Varianza
s2
1 x 2 n 1 i
1 1 X n * X X 1x ' 1 1 s2 x' x x n 1 n 1
Desviación típica
s2
1 x 2 n 1 i
Covarianza
1 sxy n 1 xi yi
Correlación
rxy
Media
Matriz de covarianzas Matriz de varianzas
x
xi y i x i2 y i2
x'
s
1 n 1
1/2
x
1 s xy n 1 x' y x' y
rxy S
1 n 1 xy xy
(x' x)(y' y) x y
1 X' n 1
s12 D 0
Matriz de puntuaciones típicas
Z XD
Matriz de correlaciones
R
1 / 2
0
0
cosxy
X
0 2 sp
1 0 0 s1 X 1 0 0 s p
1 1/ 2 1/ 2 Z' Z D SD n 1
S y R son matrices gramianas pues se basan en sumas de cuadrados y productos cruzados.
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
22
Las matrices S y R se relacionan mediante las siguientes fórmulas: R = D-1/2 S D-1/2 S = D1/2 R D1/2
(1.16)
Como S y R son cuadradas y simétricas y D1/2 es una matriz regular, las matrices S y R son equivalentes. Ello implica que r(S) = r(R). Ejemplo 25: A continuación se presenta un ejemplo del cálculo de la covarianza y la correlación para dos variables medidas en tres sujetos: Sujeto X1 X2 1 3 6 2 5 6 3 10 12 Matriz de datos (en puntuaciones directas):
Medias:
1 1 1' X 1 n 3
x'
s 12
s
Covarianza:
2 2
3 1 5 10
6 6 12
3 5 10
6 6 12
1 18 3
24 6
8
3 6 6 8 3 - 2 X X 1x ' 5 6 6 8 1 2 10 12 6 8 4 4 3 1 1 x 1 3 1 4 1 13 n 1 2 4 2 1 1 x 2 2 2 4 2 12 n 1 2 4
Puntuaciones diferenciales:
Varianzas:
1
X*
s xy
1 1 x x 3 2 n 1 1 2
Matriz de covarianzas:
Correlación: r xy
*
1
1 1 3 S n 1 X ' X 2 2
x1 x 2 x1 x 2
24 0.96 (5.10)(4.9 0)
2 4 2 12 4 1 2
3 4 4 1 4
-2
13 12 - 2 12 12 4
NOCIONES B SICAS DE LGEBRA DE MATRICES
23
Matriz de correlaciones: R D 1 / 2 SD 1 / 2
0 .96 1 / 13 0 13 12 1 / 13 0 1 12 12 0 0 .96 1 12 13 0 1 / 1 /
5. Combinaciones lineales Las técnicas multivariantes se formulan mediante combinaciones lineales por lo que es necesario comprender su definición y propiedades. Considérese la siguiente combinación lineal: y= Xa
La variable aleatoria y es una transformación o combinación lineal de X mediante a. Donde a' = [a1, ..., ap] es un vector de constantes, X una matriz de puntuaciones de n sujetos en p variables (siendo ' su vector de medias). La media y varianza de y es: E (y) = ' a Var ( y )
1 1 1 y'y ( Xa )' ( Xa ) a ' X ' Xa n 1 n 1 n 1 1 a' X ' Xa a ' Sa n 1
(1.17)
A continuación se presenta un ejemplo para ilustrar la fórmula (1.17) en el caso en que p = 2: Var (X1 a1 + X2 a2) = Var (X1 a1) + Var (X2 a2) + 2 Cov (X1 a1, X2 a2) = = a12 Var (X1) + a22 Var (X2) + 2 a1 a2 Cov (X1, X2) Como se observa, la varianza de una combinación lineal es una forma cuadrática. En el caso en que a fuese un vector normalizado (donde a' a = 1), la varianza de y queda como:
Var (y) = a' S a = a'
a=
Las ecuaciones de (1.17) pueden generalizarse al caso Y = X A. Donde A es una matriz de constantes de orden n x p, y la media y varianza de Y es: E (Y) = ' A Var (Y) = A' S A (1.18) A continuación se comentan algunas propiedades de las matrices S y R. En primer lugar ambas son semidefinidas positivas. Puesto que toda varianza ha de ser no negativa: Var (X a) 0
para todo a
24
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
Como Var (X a) = a' S a, entonces S tiene que ser, al menos, semidefinida positiva. S y R son matrices equivalentes pues en las fórmulas que las relacionan en (1.16) la matriz D1/2 es regular. Por tanto, R también es semidefinida positiva. En segundo lugar, puesto que las matrices S y R son equivalentes, el rango de S es el mismo que el de R. Este rango puede ser menor o igual que p. Si r (S) = p, entonces S y R serán definidas positivas pues Var (X a) = a' S a es mayor que cero para todo a 0. Sin embargo, si r (S) < p entonces S y R serán singulares y ello indicará una restricción de linealidad en los componentes de X. Esto implica que existe un vector a 0 tal que X a es igual a una constante. Entonces, Var (X a) = a' S a será cero, indicando que la matriz S es semidefinida positiva en lugar de definida positiva. Para ilustrar este último punto, supóngase que p = 3 y que existe una restricción de linealidad en las tres variables tal que X1 = X2 + X3. Entonces, Var(X1 - X2 - X3) = 0 y el vector a' = [1, -1, -1]. En este caso, una de las tres variables es redundante y por tanto la dimensionalidad es 2 en lugar de 3. Esto se refleja en el rango de S que también será 2. Según esta propiedad, el rango de S es un indicador útil para establecer la dimensionalidad del problema, siendo [p – r(S)] el número de restricciones lineales independientes en los componentes de X. De este modo, cuando r (S) < p se dice que los componentes de X son linealmente dependientes. Ejemplo 26: Sean las variables X1 y X2 y su matriz de covarianzas
S
4 3 . 3 9
Si se forman las combinaciones lineales Y1 = X1 + X2, Y2 = X1 - X2, la matriz de covarianzas para Y es: 1 1 4 3 1 1 19 5 Var( Y ) A ' SA 1 - 1 3 9 1 1 5 7
Y la matriz de correlaciones: R
1/ 19 0.43 0 19 5 1/ 19 0 1 D 1 / 2 SD 1 / 2 1 1/ 7 5 7 0 1/ 7 0.43 0
6. El álgebra de matrices y el lenguaje MATRIX del SPSS Las operaciones con matrices son complejas. Existen diversos paquetes informáticos que evitan su cálculo a mano. A continuación se introduce el lenguaje MATRIX del programa SPSS, uno de los más empleados en las ciencias sociales. El lenguaje MATRIX no se encuentra en los menús desplegables del programa SPSS. Para utilizarlo es necesario acudir a ventanas de sintaxis desde donde se escribe la operación que se desea realizar y se ejecuta.
NOCIONES B SICAS DE LGEBRA DE MATRICES
25
Dependiendo de la sintaxis ejecutada, los resultados se muestran en el editor de datos o en el visor de resultados del SPSS. Siempre que se realice una sesión con el lenguaje MATRIX hay que empezar con el comando MATRIX A. y terminar con el comando END MATRIX. Entre medias, se incluyen otros comandos que definen las operaciones que el procesador del SPSS ha de ejecutar. Antes de entrar en esos comandos, se verá cómo definir una matriz en lenguaje MATRIX. Los elementos de la ymatriz entre corchetes ({ }), las filas se separan mediante punto comase( ;)introducen y los elementos de la fila mediante comas (,). Ejemplo 27: La sintaxis y los resultados para definir a la matriz: A 1 3 es: 2 5
MATRIX
Run MATRIX procedure:
A.
A
COMPUTE A {1, 3; 2, 5} .
PRINT A. END MATRIX.
1
3
2
5
- - - - - - END MATRIX - - - - -
Como se observa, para definir la matriz A se ha utilizado el comando COMPUTE y para que muestre los resultados el comando PRINT. A continuación, se muestran algunos comandos para obtener operaciones tan sencillas como la traspuesta, la inversa, el determinante y la traza de la matriz A: Run MATRIX procedure:
MATRIX
A
A. COMPUTE A = {1, 3; 2, 5} . COMPUTE B = TRANSPOS (A) . COMPUTE C = INV (A) . PRINT A . PRINT B . PRINT C . PRINT DET (A) . PRINT TRACE (A) . END MATRIX.
1 2
3 5
1 3
2 5
-5 2
3 -1
B
C
DET(A) -1 TRACE(A) 6 ---- END MATRIX ----
Los comandos de las operaciones más usuales con matrices se resumen en el siguiente cuadro:
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
26 ABS (A) COS (A) DET (A) EVAL (A) EIGEN IDENT (n, p) INV (A) MAKE (a, b, c)
Valores absolutos de los elementos de la matriz A Cosenos de los elementos de la matriz A Determinante de la matriz A Autovalores de la matriz A (si A es simétrica) Autovectores de una matriz simétrica Crear una matriz identidad de orden n x p Inversa de la matriz A Crear una matriz de orden a x b con todos los elementos iguales a c
MDIAG(A) (A) MMAX MMIN (A) MSSQ (A) NCOL (A) NROW (A) RANK (A) SIN (A) SOLVE (A, B) SQRT (A) SSCP (A) TRACE (A) TRANSPOS (A)
Crear unaelemento matriz diagonal con A los elementos del vector A Máximo de la matriz Mínimo elemento de la matriz A Matriz de suma de cuadrados de los elementos de A Nº de columnas de la matriz A Nº de filas de la matriz A Rango de la matriz A Senos de los elementos de la matriz A Solución al sistema de ecuaciones lineales AX = B (si A 0) Raíces cuadradas de los elementos de la matriz A Sumas de cuadrados y productos cruzados de los elementos de A Traza de la matriz A Traspuesta de la matriz A
A continuación se muestran ejemplos de algunas operaciones con matrices (suma, producto, determinante y rango): MATRIX A. COMPUTE A = {4, 2; 3, 5} . COMPUTE B = {1, 3; 4, 7} . COMPUTE C = A + B . COMPUTE D = 2 * A . COMPUTE E = A * B . COMPUTE F = B * A . PRINT A . PRINT B . PRINT C . PRINT D . PRINT E . PRINT F . PRINT DET (A) . PRINT RANK (A) . END MATRIX.
Run MATRIX procedure: A 4 2 3 5 B 1 3 4 7 C 5 5 7 12 D 8 4 6 10 E 12 26 23 44 F 13 17 37 43 DET(A) 14 RANK(A) 2 ----- END MATRIX ----
NOCIONES B SICAS DE LGEBRA DE MATRICES
27
También puede resolverse el ejemplo 25 del apartado 4 con el lenguaje MATRIX. En este caso A es la matriz X*, B la matriz 1x ' , C la matriz X, D la matriz de covarianzas, G la matriz D1/2 e I es la matriz R. La sintaxis y resultados obtenidos son los siguientes: MATRIX
Run MATRIX procedure:
A.
A
COMPUTE A = {3, 6; 5, 6; 10, 12}. COMPUTE B = {6, 8; 6, 8; 6, 8}. COMPUTE C = A - B . COMPUTE D = 1/2 * SSCP (C). COMPUTE E = SQRT (D). COMPUTE F = {3.61, 3.46}. COMPUTE G = MDIAG(F). COMPUTE H = INV (G). COMPUTE I = H * D * H . PRINT PRINT PRINT PRINT PRINT PRINT PRINT
A. B. C. D. E. F. G.
PRINT H . PRINT I . END MATRIX.
3 5 10
6 6 12
B 6 6 6
8 8 8
C
-3 -2 -1 -2 4 4 D 13 12
E
12 12
3.605551275 3.464101615
3.464101615 3.464101615
3.610000000
3.460000000
3.610000000 .000000000
.000000000 3.460000000
.2770083102 .0000000000
.0000000000 .2890173410
.997536851 .960722463
.960722463 1.002372281
F
G
H
I
------ END MATRIX -----
A continuación se muestra la solución del ejemplo resuelto del apartado 3.5 mediante el lenguaje MATRIX. La sintaxis y resultados son los siguientes:
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
28 MATRIX
Run MATRIX procedure: A
A.
2 4
COMPUTE A = {2, 4; 4, 6}. COMPUTE B = {0; 0} . COMPUTE C = SOLVE (A, B). CALL EIGEN (A, D, E).
B 0 0 C
PRINT A . PRINT B . PRINT C . PRINT D . PRINT E. PRINT DET (A). PRINT TRACE (A).
4 6
0 0 D .5257311121 .8506508084
.8506508084 -.5257311121
E 8.472135955 -.472135955 DET(A) -4.000000000
END MATRIX.
TRACE(A) 8
B,
Donde A es una matriz simétrica, C es la solución al sistema lineal A X = D es la matriz U de autovectores normalizados y E es el vector de
autovalores de la matriz A. Por último, también es posible leer matrices desde un fichero. Por ejemplo, si se tiene la siguiente matriz de correlaciones para seis variables en el fichero "C:\datos.txt": 1.0000 0.6200 0.1700 0.0900 0.2700 0.7900
0.6200 1.0000 0.1200 0.1300 0.1300 0.5800
0.1700 0.1200 1.0000 0.0200 0.1700 0.4700
0.0900 0.1300 0.0200 1.0000 0.1200 0.0800
0.2700 0.1300 0.1700 0.1200 1.0000 0.5800
0.7900 0.5800 0.4700 0.0800 0.5800 1.0000
Lo primero es redactar la sintaxis para que el SPSS lea el fichero. En este caso: MATRIX DATA VAR x1 x2 x3 x4 x5 x6 /FILE="C:\datos.txt" /FORMAT FULL /CONT CORR /N=200 .
Al ejecutar la sintaxis, el resultado aparece en el editor de datos del SPSS:
NOCIONES B SICAS DE LGEBRA DE MATRICES
29
Como se observa, el SPSS ha leído la matriz R y el nombre y tipo de variables. Con este fichero abierto en el editor de datos, se puede operar con la matriz R. Por ejemplo, la sintaxis y resultados para obtener los autovalores y el rango de la matriz R es la siguiente: (2) MATRIX .
Run MATRIX procedure:
GET AEIGEN /FILE = * .B, C). CALL (A,
RANK(A) 6
PRINT C. PRINT RANK(A). END MATRIX .
C 2.715868170 1.029760178 .988111734 .814820915 .371076909 .080362094 ------ END MATRIX -----
El lenguaje MATRIX además de ser útil para llevar a cabo operaciones con matrices, también permite ejecutar análisis multivariantes partiendo de la matriz de correlaciones o de la matriz de covarianzas. En los capítulos 3, 4 y 5sintaxis se exponen tres técnicas de análisis multivariante y su correspondiente en el lenguaje MATRIX. (2)
Antes de ejecutar esta sintaxis, para que A sea una matriz cuadrada, es necesario borrar las dos primeras columnas y la primera fila del editor de datos, pues contienen el nombre, el tipo de variable y el N, respectivamente.
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
30
7. Ejercicios 1.
Sea la matriz
A
7 0 0 0 7 0 0 0 7
a) ¿Es esta matriz al mismo tiempo identidad, cuadrada, diagonal, escalar simétrica? b) y¿Es cierto que A-1 = A? c) ¿Qué orden debería tener un vector fila que pre-multiplica a la matriz A para que sean conformables? 2.
Si A es una matriz escalar de orden 2 y cada uno de sus elementos diagonales vale k, siendo k 0, obtenga cuanto vale k sabiendo que tr (A) = A.
3.
Encuentre el valor omitido del vector z sabiendo que los vectores: x' 1 1 0 , y' 0 1 2 , z ' 0 ? 1 son linealmente dependientes.
4.
Sean
A
1 1 , B = A-1, C = B-1. Obtenga la traspuesta, el determinante 1 1
y el rango de C. 1 0.20 , ¿es posible que su matriz de autovalores sea 0.20 1 0 ? 1 . 20 0 1 . 20
5.
Siendo
6.
Obtenga el autovalor 1 de la matriz
A
a b cuyo autovector asociado 1 1
A
es 1 . 2
7.
A es singular y de orden 3. Sus autovalores son 1 = 3, 2 = -1 La y 3matriz = ?. Obtenga cuanto vale el tercer autovalor de A.
8.
Sea la matriz
4 a , calcule el valor de a sabiendo que 1 = 5, 2 = 1. 3 2
A
NOCIONES B SICAS DE LGEBRA DE MATRICES 9.
31
Las puntuaciones de 5 personas en 2 pruebas aparecen en la matriz X*:
X*
11 10 10 10 11 8 9 6 9 6
Obtenga la matriz X, el vector x ' , la matriz de varianzas-covarianzas y la de correlaciones 10.
Suponga que tres variables aleatorias, X1, X2 y X3 son independientes con varianza 1. Sea Y1 = X1 + X2 + X3, Y2 = X1 - X2 e Y3 = X1 - X3. Calcule las matrices de correlaciones y covarianzas para Y, donde Y' = [Y1, Y2, Y3].
11.
Indique la sintaxis que tendría que introducir en el lenguaje MATRIX del SPSS para resolver los ejercicios 4 y 9.
Capítulo 2. La Distribución Normal Multivariante 1. Concepto de distribución multivariante, marginal y condicional El concepto más básico del análisis multivariante es el de la distribución de probabilidad multivariante. Se asume que el lector conoce la definición de variable aleatoria y modelos de distribución de probabilidad (p.e. el modelo normal). Lo que se pretende en este apartado es extender el planteamiento univariante al multivariante. Aunque este capítulo se centra en el caso de las variables continuas, se empieza con el de las discretas pues es más sencillo. Sea x un vector aleatorio definido como una variable aleatoria pdimensional y sean X1, …, Xp variables aleatorias univariantes: x ' = [X1, …, Xp]
La distribución conjunta de x se describe mediante la función de probabilidad conjunta P(x1, …, xp), donde: P(x1, …, xp) = P(X1= x1, …, Xp = xp) Por abreviar nos referiremos a P(x1, …, xp) como P(x). La función P(x) ha de satisfacer condiciones similares a las del caso univariante. Es decir: P (x) 0 para cada x P (x) = 1 El rango del sumatorio es el de todos los posibles valores del vector x. Es decir, todos los posibles valores de las variables X1, …, Xp. A partir de la distribución conjunta pueden calcularse otros dos tipos de distribuciones, las distribuciones marginales y las condicionales. Supóngase que se está interesado en la distribución de un componente del vector x, denominado Xi, sin tener en cuenta los valores de las restantes variables. Cuando la distribución de una variable se obtiene a partir de la distribución conjunta sumando las probabilidades en las restantes variables, a esto se le denomina distribución marginal. Por tanto, la distribución de probabilidad para Xi puede obtenerse a partir de: P(Xi = xi)= P(x1, …, xi, …, xp) En este caso el rango del sumatorio son todos los posibles valores del vector x manteniendo constante Xi. Es decir: x1, …, xi – 1, xi + 1, …, xp.
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
34
Supóngase que el vector tiene dos elementos (X1 y X2) y su distribución conjunta es la siguiente:
P( x ) P ( X 2 | X 1 ) P ( X 1 ) Donde P(X2 | X1) es la distribución de X2 condicionada a un valor de X1 y P(X1) la distribución marginal de X1 (ambos conceptos se describen más abajo). Si la distribución conjunta coincide con el producto de sus distribuciones marginales para todo x, tal que P(x) = P(X1) P( X2), se dice que las variables son independientes. Generalizando para un vector de dimensión p, se dice que sus elementos son independientes si: p
P ( x ) Pi ( x i ) i 1
Si algunas de las variables se fijan a valores constantes, entonces la distribución de las restantes variables se denomina distribución condicional. Téngase en cuenta que la probabilidad condicional para el suceso A dado que ha ocurrido B es: P(A | B) = P(A B) / P(B). Análogamente, la distribución condicional de una variable aleatoria viene dada por el cociente entre la distribución conjunta y la distribución marginal correspondiente. En caso de que p = 2, la distribución condicional de X1 dado que X2 toma el valor x2, viene dada por:
P( x1 | x 2 ) P( X 1 x1 | X 2 x 2 )
P ( x1 , x 2 ) P2 ( x 2 )
Donde P2 (x2) es la distribución marginal de X2. De forma más general:
P ( x1 ,..., x k | x k 1 ,..., x p )
P(x) PM ( x k 1 ,..., x p )
Donde PM (xk + 1 ,…, xp) es la distribución marginal de Xk + 1 ,…, Xp . Ejemplo 1: Se lanza una moneda cuatro veces y se define: X1 = número de caras en los lanzamientos 1 y 2 X2 = número de caras en los lanzamientos 2, 3 y 4 Primero, se calcula la distribución conjunta de X1 y X2 y sus marginales:
LA DISTRIBUCI N NORMAL MULTIVARIANTE
X2
0 1/16 2/16 1/16 0
0 1 2 3 Distribución Marginal de X1
1/4
X1 1 1/16 3/16 3/16 1/16 2/4
35 2 0 1/16 2/16 1/16
Distribución Marginal de X2 1/8 3/8 3/8 1/8
1/4
A continuación se obtiene la distribución de X1 dado que X2 = 2. Para ello, se busca en la fila donde X2 = 2 y se normaliza para que las probabilidades sumen 1. Esto es: 1 / 16 1/ 6 P( X 1 0 | X 2 2) 3/8 3 / 16 P( X 1 1 | X 2 2 ) 3/6 3/8 2 / 16 P( X 1 2 | X 2 2) 2/6 3/8 En el caso de las variables continuas, la distribución de una variable continua puede describirse mediante la función de distribución o mediante la función de densidad de probabilidad. Análogamente, se pueden definir funciones similares para distribuciones multivariantes continuas. Por ejemplo, la función de distribución conjunta se define mediante:
F (x1, …, xp) = P(X1 x1, …, Xp xp) Y la función de densidad de probabilidad conjunta mediante la p-ésima derivada parcial p F ( x1 ,..., x p ) (2.1) f ( x1 ,..., x p ) x1 ... x p si se asume que F (x1, …, xp) es continua. Como en las variables discretas, nos referiremos más abreviadamente a F(x) para designar a la función de distribución conjunta y a f (x) para designar a la función de densidad de probabilidad conjunta. La función de densidad de probabilidad conjunta ha de satisfacer las siguientes condiciones: 1). f (x) 0 para cada valor de x 2).
...
f (x) dx1 ... dx p 1
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
36
Al igual que en el caso univariante, la función de densidad de probabilidad conjunta no es una probabilidad, de hecho puede ser mayor que 1. No obstante, las probabilidades pueden encontrarse integrando sobre el subconjunto requerido del espacio p. Las distribuciones marginales y condicionales pueden definirse fácilmente en el caso continuo. La distribución marginal de la función de densidad de probabilidad de un componente de X, por ejemplo Xi, puede encontrarse a partir de la función de densidad de probabilidad conjunta integrando sobre todas las restantes variables. Es decir:
f i ( xi )
...
f ( x ) dx 1 ... dx i 1 dx i 1 ... dx p
(2.2)
Las variables aleatorias son independientes si la función de densidad de probabilidad conjunta es igual al producto de las funciones de densidad de probabilidad marginales para todo x.
f (x)
p
fi (xi )
(2.3)
i 1
Las funciones de densidad de distribuciones continuas condicionales pueden obtenerse dividiendo la función de densidad de probabilidad conjunta entre la correspondiente función de densidad de probabilidad marginal. Esta operación es análoga a la del caso discreto. Por tanto, en el caso de que p fuera 2, la función de densidad de probabilidad condicional de X1 dado que X 2 toma el valor x2 es: (2.4) f (x1 | x2) = f (x1 , x2) / f2 (x2) Ejemplo 2: Considérese una distribución bivariante con la siguiente función de densidad de probabilidad conjunta: 2 si 0 x1 x 2 1
f ( x1 , x 2 ) 0
En cualquier otro caso
Por tanto, la función de densidad es constante dentro del triángulo como puede verse en la siguiente figura:
LA DISTRIBUCI N NORMAL MULTIVARIANTE
37
Para determinar la distribución marginal de X1 y X2, y ver si son variables aleatorias independientes se define la función de densidad de probabilidad marginal de cada variable en un rango de 0 a 1. Aplicando la fórmula (2.2):
f1 ( x1 )
1
2 dx 2 2 (1 x1 )
x1
Por tanto,
f ( x1 ) 02(1 x1 ) Si 0 x1 1otro caso En cualquier De forma similar para X2 se tiene que:
f 2 ( x2 )
x2 0
2 dx 1 2 x 2
Por tanto,
2 x Si 0 x 2 1 f ( x2 ) 2 En cualquier otro caso 0 Aplicando la fórmula (2.3) se observa que las dos variables aleatorias no son independientes ya que: f ( x1 , x 2 ) f 1 ( x1 ) f 2 ( x 2 ) . Supóngase ahora que se desea encontrar la distribución condicional de X1 dado que X2 = 3/4. Como se deriva de la figura anterior, la distribución condicional ha de definirse sobre el rango (0, 3/4). Aplicando la fórmula (2.4) se encuentra que la función de densidad de probabilidad condicional debe ser constante sobre este rango y por tanto:
4 / 3 Si 0 x1 3 / 4 f ( x1 | X 2 3 / 4 ) En cualquier otro caso 0 Medias, varianzas, covarianzas y correlaciones
Como en el caso univariante, para resumir las distribuciones multivariantes se necesita calcular la media y varianza de cada una de las p variables asi como las covarianzas y correlaciones. El vector de medias ' = [1, …, p] es tal que i
E( X i ) xi f i ( x ) dx
La varianza del componente i-ésimo de X es:
(2.5)
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
38
Var( X i ) E ( X i2 ) i2 x i2 f i ( x ) dx i2
(2.6)
En el caso univariante, suele denominarse i2 mientras que en el multivariante se denomina ii para que sea congruente con la notación de las covarianzas. La covarianza entre dos variables Xi y Xj es: Cov (Xi, Xj) = E [(Xi – i)(Xj – j)
(2.7)
La covarianza entre Xi y Xj se denomina ij. Si i = j en realidad se trata de la varianza de una variable ( ii) por lo que no es necesario definir varianza y covarianza separadamente. La covarianza entre Xi y Xj también puede obtenerse mediante: ij
E( X i X j ) - E( X i )E( X j )
xi x j f ( xi , x j )dxi dx j E( X i )E( X j )
(2.8)
En conjunto para p variables hay p varianzas y p (p – 1) /2 covarianzas. Todos estos indicadores suelen colocarse en una matriz, la matriz de covarianzas:
11 21 p 1
12 22
1p 2 p
p2
pp
De las ecuaciones (2.7) y (2.8) se deduce que puede expresarse también mediante: = E[(X – ) (X – )'] = E(XX') – ' (2.9) La covarianza es difícil de interpretar descriptivamente porque su valor depende de las unidades de medida de las variables. Para evitar este problema se tipifica y se obtiene la correlación lineal o de Pearson: ij
ij i
j
oscila entre -1 y +1 y proporciona una medida de asociación lineal entre dos variables sencilla de interpretar. ij
Para p variables se dispone de p (p – 1)/2 correlaciones diferentes. Todas ellas suelen presentarse en una matriz, la matriz de correlaciones:
LA DISTRIBUCI N NORMAL MULTIVARIANTE
1 21 p 1
39 1
12
1p
1
2p
p2
Se denomina porque es la letra mayúscula griega para rho. Como se ha visto en el capítulo 1, las matrices
y
pueden
relacionarse mediante las siguientes expresiones: D 1/2 D 1/2 o bien D -1/2 D -1/2
(2.10)
Donde D1/2 es una matriz diagonal cuyos términos diagonales son 1, 2, …, p. También se ha visto que las matrices y son semidefinidas positivas y se cumple que r( ) = r( ). Ejemplo 3: Calcúlese la media, varianza, la covarianza y correlación para las variables d ejemplo 2. Aplicando la fórmula (2.5) se obtienen las medias para X1 y X2. 1
E( X 1 )
1
1 1 1 1 1 1 1 x f ( x) dx 0 1x 2(1 x ) dx 1 / 3 E( X 2 ) x 2 f 2 ( x ) dx 2 x 2 2 x 2 dx 2 2 / 3 0 0 0
Aplicando la fórmula (2.6) se obtienen las varianzas para X1 y X2.
2 2
( X 2 ) E(X 22 ) - E(X 2 )2
1
x 2(1- x ) dx (1/ 3) 1/ 6 1/ 9 1/18 x 2x dx (2 / 3) 1/ 2 4 / 9 1/18
( X1 ) E(X12 ) - E(X1 )2
0
1
0
2 1
2 2
2
1
1
2
2
2
Aplicando la fórmula (2.8) se obtiene la covarianza de X1 y X2. ( X 1 X 2 ) E( X 1 X 2 ) - E( X 1 )E( X 2 )
1
x2
0
0
x1 x2 2dx1 dx2 2 / 9 1 / 36
La correlación se obtiene mediante: 12 1 / 36 1 / 2 12 1 2 1 / 18
2. La distribución normal multivariante La distribución multivariante más comúnmente empleada es la distribución normal multivariante. Antes de entrar en su descripción, téngase
40
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
en cuenta que una variable aleatoria normal X, con media y varianza 2 tiene la función de densidad:
f ( x)
2 2 1 e ( x ) / 2 2
(2.11)
y se expresa mediante:
X N ( , ) Si en el vector X las variables X1, …, Xp son variables aleatorias independientes donde Xi N (i, i), entonces su función de densidad de probabilidad conjunta es simplemente el producto de las correspondientes funciones de densidad de probabilidad marginales. Es decir:
1
f (x ) ( 2 )
p/2
e
p
1 2
p
x i i i 1 i
2
(2.12)
i
i 1
En este caso X' = [X1, …, Xp] tiene media ' = [1, …, p] y matriz de covarianzas: 12 0 0
0
2 2
0
0 0 2p
Por tanto, en el caso multivariante se dice que una variable aleatoria pdimensional X sigue la distribución normal multivariante si su función de densidad de probabilidad conjunta tiene la siguiente forma:
f (x)
1 ( 2 )
p/2
1/ 2
e
1 ( x )' 2
1
( x )
(2.13)
La expresión del exponente es la forma cuadrática de la función f(x). -1
definición sea. regular paraseque . Esto es, seaEstauna matriz requiere Como ya ha exista visto, puede no que ser definida que positiva definida positiva. Es importante establecer esta distinción pues si es semidefinida positiva, la distribución de X no posee una función de densidad y se denomina distribución normal multivariante degenerada o singular. Aquí solamente se considera la distribución normal multivariante no singular.
LA DISTRIBUCI N NORMAL MULTIVARIANTE
41
Como se observa, la generalización de la ecuación (2.11) a la (2.13) no es obvia. Sin embargo, está claro que la ecuación (2.13) se reduce a la ecuación (2.11) cuando p = 1. La ecuación (2.12) puede re-escribirse en la forma de la ecuación (2.13). Por tanto, el caso de variables normales independientes es un caso especial de la fórmula dada en (2.13). No obstante, los componentes de X generalmente no necesitan ser independientes y por tanto no tiene por qué ser diagonal, dado quepuede es simétrica y definida . El requisito de quede la seacondición definida positiva concebirse como lapositiva equivalencia multivariante 2 > 0 en el caso univariante. Con esta explicación no se ha demostrado que la ecuación (2.13) defina una distribución apropiada. Lo que sí queda claro es que f (x) 0 para cada x. Además, es posible demostrar (aunque tedioso) que x f (x) dx1 … dxp = 1 para cada y para cada que es simétrica y definida positiva. También es posible demostrar que E(X) = y que Var( X) = es la matriz de covarianza para X. Por tanto los parámetros y tienen una interpretación inmediata y se expresa mediante: X Np (
, )
Donde p se refiere a la dimensión de X,
al vector de medias y
a la
matriz de covarianzas. A continuación se resumen algunas propiedades de la distribución normal multivariante. 1. Si una variable aleatoria X p-dimensional sigue la distribución normal multivariante, sus distribuciones marginales y condicionales también son normales. Por simplicidad, sólo se incluyen las fórmulas de estas distribuciones en el caso bivariante en el siguiente apartado (para más información consultar Martín Pliego y Ruiz-Maya, 1997; p. 473-480). 2. Otra propiedad debida a Cramer y Wold es que cuando una variable aleatoria X p-dimensional sigue una distribución normal multivariante cada uno de los componentes de X sigue una distribución normal univariante. Por tanto, E(X) = y Var( X) = contienen las medias, varianzas y covarianzas de variables unidimensionales normales univariantes. No obstante, esta condición es necesaria pero no suficiente. Es decir, que las variables unidimensionales sean normales univariantes no implica necesariamente que la distribución pdimensional de X sea normal multivariante.
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
42
3. Si X Np (, ), y se forman combinaciones lineales basadas en los componentes de X, éstas también se distribuyen según el modelo normal multivariante. Ejemplo 4: Sea la variable X' = [X1, X2, X3] con distribución normal multivariante de parámetros:
4 2 3 2 9 5 3 5 16
2 4 5
A continuación se muestran ejemplos donde se obtienen distintas áreas de probabilidad: a) P(X1 3.5)
X1 tiene la distribución marginal N(2, 2). Para obtener el área que queda a la derecha de 3.5 se consulta la distribución de probabilidad de la normal tipificada (puede verse la tabla 1 del anexo): P(X1 3.5) = P(z 3.5 – 2)/2) = P(z 0.75) = 0.2266 b) P(2X3 – X2 2) Si se denomina Y = 2 X3 – X2, esta nueva variable Y es una transformación lineal de la variable normal bivariante ( X3, X2). Y tiene distribución normal univariante con parámetros: E(Y) = 23 – 2 = (2)(5) – 4 = 6 Var(Y) = 2232 + 22 – (2) (2) 32= (4)(16) + 9 – (4)(5) = 53. Donde (Y) = 7.28 Por tanto, Y N (6, 7.28). Según la tabla de la normal tipificada: P(2X3 – X2 2) = P( Y 2) = P(z 2 – 6)/7.28) = P(z -0.55) = 0.2912
3. La distribución normal bivariante Un importante caso particular de la distribución normal multivariante es aquel en que solamente hay dos variables. En este caso se tiene al vector de medias ' = [1, 2] y a la matriz de covarianzas:
2 1 1 2
1 2 22
LA DISTRIBUCI N NORMAL MULTIVARIANTE
43
Desarrollando los términos -1 y 1/2 de la ecuación (2.13) en el caso bivariante, la función de densidad de probabilidad conjunta resultante es:
f ( x1 , x 2 )
1 2 1 2 (1 2 )
e
2 x 2 1 1 1 2 x1 1 x2 2 x2 2 2 (1 2 ) 1 1 2 2
(2.14)
Esta expresión depende de cinco parámetros: las dos medias marginales, las dos varianzas marginales y la correlación. Como puede observarse, en este caso la matriz es regular y por tanto definida positiva dado que < 1. Si fuera +1 ó -1, las dos variables estarían linealmente relacionadas y las observaciones serían unidimensionales. Si = 0, la ecuación (2.14) se reduciría al producto de las dos funciones de densidad normales univariantes, aunque esto pueda no ser así para otro tipo de distribuciones multivariantes. Para comprender un poco mejor la ecuación (2.14), nótese que la función de densidad f(x1, x2) normal bivariante es constante en las superficies donde el exponente (x – )' -1(x – ) también es constante. Los valores de x que tienen igual densidad, forman elipses centradas en . Esto puede verse más claramente de forma gráfica (véase figuras 2.1 a 2.6). Los ejes de cada elipse de densidad constante están en la misma dirección que los autovectores de y sus longitudes son proporcionales a las raíces cuadradas de los autovalores de . La distribución marginal coincide con la fórmula dada en la ecuación (2.11). En cuanto a la distribución condicional, se obtiene mediante la siguiente expresión: 1
x 2 1 1
x1 1 x2 2 x2 2 2 2
2 2(1 2 ) 1 1 1 e 2 f (x , x ) 2 (1 ) f ( X1 | X 2 ) 1 2 1 2 2 2 1 f 2 ( x2 ) e( x2 2 ) / 2 2 2
2
(2.15)
Operando se llega a lo siguiente:
1
f (X | X ) 1
2
1
2
e 1
2 1 x1 1 1 ( x 2 2 ) 2 2 12 (1 2 )
(2.16)
2
Por lo cual,
X 1 | X 2 ~ N 1 1 ( x 2 2 ), 2
1
1 2
(2.17)
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
44
Donde, la esperanza matemática, E(X1 | X2 = x2), es la regresión de X1 sobre X2. La pendiente es: 1 y el srcen: 1 1 2 .
2
2
Siguiendo este mismo planteamiento puede obtenerse la distribución de X2 condicionada a la de X1 donde:
X 2 | X 1 ~ N 2 2 ( x1 1 ), 2 1 2 1
(2.18)
Ejemplo 5: Sea la función de densidad conjunta bidimensional
f ( x1 , x 2 )
1 12
0 , 84
e
1 x 1 2 1
4 x 2 2 2 ,4
2 ,4 9
1
x1 1 x 2 2
a) Las distribuciones marginales y condicionales son las siguientes: De la fórmula anterior se deduce que: 1 = -1; 2 = 2; 1 = 2; 2 = 3; 12 = 2.4; = 0.4. Distribuciones marginales: X1 N(-1, 2) X2 N(2, 3) 2 Distribuciones condicionales: X 1 | X 2 ~ N 1 0.4 3 ( x2 2), 2 0.84 3 X 2 | X 1 ~ N 2 0 .4 ( x1 1), 3 0 .84 2 b) La probabilidad de que X1 sea mayor que 2 es: X1 N(-1, 2) P(X1 2) = P(z (2+1)/2) = P(z 1.5) = 0.0668 (ver tabla 1 del anexo). c) La probabilidad de que X1 sea mayor que 2 dado que X2 es 3 es: 2 X 1 | X 2 3 ~ N 1 0 . 4 (3 2 ), 2 0 .84 N ( 0 .73 , 1 .83 ) 3 P(X1 2 | X2 = 3) = P(z (2+0.73)/1.83) = P(z 1.49) = 0.0681 d) La probabilidad de que X1 sea mayor que 2 dado que X2 es 1 es: 2 X 1 | X 2 1 ~ N 1 0 . 4 (1 2 ), 2 0 .84 N ( 1 .27 , 1 . 83 ) 3 P(X1 2 | X2 = 1) = P(z (2+1.27)/1.83) = P(z 1.79) = 0.0367
LA DISTRIBUCI N NORMAL MULTIVARIANTE
45
La distribución X1 | X2 puede entenderse como la regresión de X1 sobre X2 donde la pendiente de la recta X1' es 0.4 (2/3)= 0.27 y el srcen -1 - 0.27 (2)= -1.53. Gráficamente, se observa más claramente la diferencia entre las áreas de probabilidad obtenidas en los apartados c) y d): 3
X1
0.0681
0.0367
2 1 1
2
3
X2
X1'
Como puede verse, la probabilidad de que X1 sea mayor que 2 condicionada al valor X2 = 1 es menor que la misma probabilidad condicionada al valor X2 = 3. La distribución normal bivariante puede ilustrarse gráficamente. La figura 2.1 muestra el gráfico tridimensional en puntuaciones típicas para dos variables donde = 0. En la figura 2.2. se muestra el mismo gráfico expresado en un diagrama de contornos. Las figuras 2.3. y 2.4 están confeccionadas para un valor de = 0.80 y las figuras 2.3. y 2.4 para un valor de = -0.80. Como puede observarse, la presencia de correlación hace que la probabilidad se concentre a lo largo de una línea. Los diagramas de contornos reflejan con más claridad que los valores de que tienen igual densidad, forman elipses centradas en (véase figuras 2.2, 2.4. y 2.6.). En todos los casos la función de densidad de probabilidad conjunta tiene un máximo en el valor de (es decir en el punto 0, 0 del gráfico). La figura 2.2 muestra que cuando = 0, la elipse adopta una forma circular pues la pendiente es cero. En la figura 2.4 puede verse que cuando > 0 el eje principal de la elipse tiene una pendiente positiva y en la figura 2.6 que cuando < 0, la elipse tiene una pendiente negativa. x
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
46
3
2
1
. 15 0
0. 1 2
. 05
1
0 0 - 2
2
0 - 2 3
2
3-
Figura 2.1. Diagrama 3-D para distribución normal bivariante con = 0
2-
1-
0
1
2
3
Figura 2.2. Diagrama de contornos para Distribución normal bivariante con = 0 3
2
1
. 2
0
2
. 1
1
0 0
2
- 2 0 - 2
3
2
3-
Figura 2.3. Diagrama 3-D para distribución normal bivariante con > 0
2-
1-
0
1
2
3
Figura 2.4. Diagrama de contornos para Distribución normal bivariante con > 0 3
2
1
. 2
0
2
. 1
1
0 0 - 2 2
0 - 2 2
3 3-
Figura 2.5. Diagrama 3-D para distribución normal bivariante con < 0
2-
1-
0
1
2
3
Figura 2.6. Diagrama de contornos para Distribución normal bivariante con < 0
LA DISTRIBUCI N NORMAL MULTIVARIANTE
47
La distribución normal multivariante es importante por varias razones. En primer lugar debido a la forma multivariante del teorema del límite central. En segundo lugar, muchas técnicas multivariantes requieren que los datos sigan esta distribución para estimar los parámetros por máxima verosimilitud y realizar contrastes de hipótesis. Por último, si el modelo estadístico incluye más de un parámetro, la distribución asintótica de los estimadores es normal multivariante; esto permite obtener intervalos de confianza para los estimadores y la correlación entre ellos (Andersen, 1980; Muirhead, 1982). Además de la distribución normal multivariante, descrita aquí, hay otras muchas. Aquí no se entrará en detalle en ninguna de ellas, aunque sí se nombrarán algunas de las más conocidas. Para variables discretas la más conocida es la distribución multinomial. La forma multivariante de la distribución multinomial se utiliza para el caso de múltiples variables discretas clasificadas en una tabla de contingencia multidimensional (véase Bishop, Fienberg & Holland, 1975). Otras distribuciones multivariantes discretas son la de Poisson, la hipergeométrica y la de series logarítmicas (para más detalle véase Bishop, et al., 1975; Johnson & Kotz, 1969). En cuanto a las distribuciones multivariantes para variables continuas, la más relevante es la normal multivariante, aunque hay muchas otras que se relacionan con ella. Por ejemplo, la distribución Wishart, que es la forma multivariante de la distribución 2 de Pearson, la T2 de Hotelling, que es la forma multivariante de la distribución t de student y la forma multivariante de la distribución beta, gamma y la exponencial (para más detalle véase Johnson & Kotz, 1972).
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
48
4. Ejercicios 1.
Dos variables aleatorias, X e Y, tienen la siguiente función de densidad de probabilidad conjunta: 3 x si 0 y x 1
f ( x, y ) 0
a) b) c) d)
En cualquier otro caso
Obtenga las distribuciones marginales de X e Y Demuestre que las variables aleatorias no son independientes Obtenga el valor esperado, la varianza y la covarianza para X e Y Obtenga la distribución condicional de X dado que Y = 1/2
2.
Tres variables aleatorias, X, Y y Z tienen la siguiente función de densidad de probabilidad conjunta: 4 / 9 xyz 2 si 0 x 1, 0 y 1, 0 z 3 f ( x, y , z ) En cualquier otro caso 0 a) Demuestre que las variables aleatorias son independientes b) Demuestre que la función de densidad de probabilidad conjunta de X y Z viene dada por: 2 / 9 xz 2 si 0 x 1, 0 z 3 f ( x, z ) En cualquier otro caso 0 e) Demuestre que E (X) = 2/3 f) Obtenga la distribución condicional de X dado que Y = 1/2, Z = 1 g) Demuestre que la covarianza entre X y Z es 0 h) Obtenga f (x, y, z) mediante F (x, y, z). Utilice para ello la fórmula 2.1.
3.
Suponga que la distribución conjunta de dos variables, X1 y X2 es la normal bivariante con parámetros 1, 2, 12, 22 y . Calcule la inversa y el determinante de la matriz de covarianzas. ¿Qué ocurre con la distribución cuando: (a) = 0; (b) y (c) ?.
4.
Sea X' = [X1, X2, X3] una variable aleatoria con distribución normal multivariante y parámetros: 8 7 5 ' 7 9 6 7 14 9 5 9 11 Determine las siguientes probabilidades: a) P(X3 5) b) P(5 X2 12) c) P(2X1 + X2 – X3 25) d) Probabilidad de que X1 sea menor que 7 dado que X2 es 3 e) Probabilidad de que X1 sea menor que 7 dado que X2 es 5
Capítulo 3. Análisis de Regresión Lineal Múltiple 1. Introducción La regresión pretende pronosticar los valores que toma una variable cuantitativa (la variable dependiente: Yi) a partir de los valores que toman otra/as variable/s también cuantitativas (la/s variable/s independiente/s: Xj). La regresión (RS) los variable valores que toma la variable dependiente (Yi) asimple partir de los explica de una sola independiente ( Xj). La regresión múltiple (RM) tiene por objeto combinar p variables independientes (X1, X2, ..., Xp) de tal modo que pronostiquen con la mayor precisión los valores que toma la variable dependiente (Y). La RM permite analizar tanto las contribuciones individuales como las colectivas del conjunto de variables independientes en los cambios que se producen en la variable dependiente. La regresión puede formularse desde diferentes modelos. Aquí se considera exclusivamente el modelo lineal por su sencillez y porque ha demostrado ser de gran utilidad en muchas situaciones aplicadas. Existen diversos manuales sobre regresión lineal. Por ejemplo los de Montgomery y Peck (1992), Neter et al. (1996), Pedhazur (1982) y Weisberg (1985). Y para aspectos más aplicados los de Berry y Feldman (1985), Cook (1999), Draper y Smith (1981) y el de Etxebarría (2000) en castellano.
2. El modelo lineal general Un modelo es una afirmación algebraica sobre cómo se relacionan dos o más variables. Existen diversos tipos de afirmaciones algebraicas pero la más sencilla y flexible es la del modelo lineal. Los modelos lineales establecen una hipótesis sobre la relación entre dos tipos de variables: las dependientes y las independientes. La estructura de la relación entre ambas constituye su forma funcional, que incluye la relación entre las principales variables, el tipo de distribución de probabilidad de las variables aleatorias y los parámetros de las ecuaciones del modelo. Expresado formalmente, si Yi es la medida en la variable dependiente para el sujeto i, el modelo lineal descompone las puntuaciones en Yi como el resultado de la suma ponderada de los siguientes componentes: Yi = 0 X0i + 1 X1i + 2 X2i + ... + p Xpi + i
(3.1)
Donde X1i, X2i, …, Xpi son las p variables independientes incluidas en el modelo para explicar el comportamiento de la variable dependiente. Se consideran variables fijas. Los 1, 2, …, p son los p parámetros que se
50
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
necesita estimar para decidir sobre la importancia de cada una de las variables presentes en la ecuación. 0X0i representa el conjunto de efectos debidos a variables mantenidas constantes (donde X0i toma el valor 1 para todos los sujetos). Por último, i es el efecto debido al conjunto de variables no incluidas en el modelo. Se denomina error aleatorio y se supone varía aleatoriamente con media 0 y varianza 2. Según estas especificaciones, el modelo lineal general asume que hay n observaciones en p variables no correlacionadas tal que: E(Y) = 0 + 1X1i + 2X2i + ... + pXpi Var(Y) = 2 La expresión (3.1) se corresponde con las siguientes matrices y sistema de ecuaciones:
Y1 0X01 1X11 2X21 ... p Xp1 1 Y X X X ... X p p2 2; 2 0 02 1 12 21 22 X X X ... X p pn n Yn 0 0n 1 1n 21 2n
Y1 1 X11 X21 Y 1 X X 2 12 22 1 X X Yn 1n 2n
Xp1 0 1 Xp2 1 2 2 Xpn n p
De modo más compacto: *
(3.2) + Si se introduce en la ecuación solamente una variable independiente (X1), el modelo de regresión lineal para predecir los valores de la variable dependiente (Yi) en n ensayos es: Y=X
Yi = 0 + 1X1i +i
(3.3)
Donde Y es el vector de valores de la variable dependiente de orden n x 1, la matriz de orden n x 2 correspondiente a los valores de la variable independiente, el vector de orden 2 x 1 de parámetros llamados coeficientes de regresión; donde 0 es el srcen de la recta de regresión y 1 su pendiente, un coeficiente que indica el cambio que se produce en Y por cada unidad de variación en X1. Cuando la relación entre X1 e Y es positiva 1 > 0, cuando es negativa 1 < 0. Por último es el vector de errores aleatorios o residuos de orden n x 1. X*
Si se consideran p variables independientes (X1, X2, ..., Xp), el modelo de regresión para predecir los valores de la variable dependiente ( Yi) en n ensayos es: Yi = 0 + 1X1i + 2X2i + ... + pXpi + i (3.4) La expresión (3.4) en modo matricial es: Yn x 1 = X*n x
+1
+1
x1+
n x 1.
AN LISIS DE REGRESI N LINEAL M LTIPLE
51
Además de los ya mencionados, otros supuestos del modelo lineal general son los siguientes: a).
1 E ( ) E 2 n
0 0 0
E( 12 ) E( 1 2 ) E( ) E( 22 ) b). E( ' ) 1 n E( n 1 ) E( n 2 )
E( 1 n ) 2 0 E( 2 n ) 0 2 2 E( n ) 0 0
0 0 2I 2
c). Cov(, X) = 0 d). r(X) = p (no multicolinealidad = Las Xj son independientes). e). Adicionalmente, puede asumirse que N (0, 2I), aunque no es imprescindible. Si se asume, puede utilizarse el método de estimación de máxima verosimilitud y llevarse a cabo las pruebas de significación (véase apartado 4.2). El modelo lineal general, pese a su simplicidad, ha dado fundamento a la mayor parte de las técnicas de análisis de datos que se utilizan en la investigación empírica. Entreetc. ellas se encuentran los modelos de regresión lineal, el análisis de varianza,
3. Estimación de parámetros El modelo planteado en la ecuación (3.4) refleja el modelo de regresión múltiple en términos de sus parámetros poblacionales ( 0, 1, ..., p). Para una muestra extraída de la población el modelo (3.1) puede expresarse mediante:
Yi = b0 + b1X1i + b2X2i + ... + bpXpi + ei
(3.5)
Donde b0, b1, b2, ..., bp son los estimadores de los parámetros 0, 1, 2, ...,
p y ei es el estimador de i.
De modo más compacto la ecuación (3.5) puede expresarse mediante: Y = X* b + e
(3.6)
Existen diferentes métodos para estimar los parámetros. Aquí se expone el más utilizado, el de mínimos cuadrados, aunque también se comenta brevemente el de máxima verosimilitud.
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
52
3.1. Método de estimación por mínimos cuadrados
Con el cálculo de los estimadores de los parámetros de la expresión (3.5) se pretende estimar la ecuación de regresión que mejor se ajusta a los datos empíricos. El procedimiento matemático para estimar dicha ecuación consiste en calcular la recta (en regresión simple) o el plano (en regresión múltiple) cuya distancia vertical a los distintos valores de Y sea mínima.
ˆ es el valor predicho mediante las variables independientes en Y, se Si Y tiene que: ˆ X*b En puntuaciones directas: Y = X* b + e; Y En puntuaciones diferenciales: y = X b + e; yˆ Xb En puntuaciones típicas: zy = zx b* +e*; zˆ y z x b * El error obtenido en el pronóstico será:
ˆ Y - X *b En puntuaciones directas: e Y-Y En puntuaciones diferenciales: e y yˆ y Xb En puntuaciones típicas: e * z y zˆ y z y z x b *
ˆ es aquella en que el valor La mejor predicción de las Y a partir de las Y de los errores sea lo más pequeño posible. Aplicando el método de mínimos cuadrados:
min: e2 = e'e
La expresión que permite calcular el vector de parámetros de la ecuación de regresión que hace mínima e'e es: * * -1 * En puntuaciones directas: b = (X 'X ) X 'Y En puntuaciones diferenciales: b = (X'X)-1 X'y En puntuaciones típicas: b* = (Z'Z)-1 Z'Zy = (Rxx)-1Rxy (3.7) A continuación se expone la demostración de las ecuaciones obtenidas en (3.7) en puntuaciones diferenciales: Partiendo de y = Xb + e, se trata de calcular b de modo que los valores de sean lo más pequeño posible. Puesto que E( e) = 0, lo que hay que minimizar es e'e: e
e'e = (y – Xb)' (y – Xb) = y'y – y'Xb – b'X'y + b'X'Xb
Puesto que y'Xb es la misma cantidad escalar que b'X'y: e'e = y'y – 2 b'X'y + b'X'Xb
Nótese que b'X'Xb = b'Sb (forma cuadrática de S).
AN LISIS DE REGRESI N LINEAL M LTIPLE
53
Para minimizar e'e se iguala a cero la derivada parcial:
(e ' e ) 2 X ' y 2 X ' Xb b Igualando a 0 se obtienen las llamadas ecuaciones normales: X'Xb = X'y Por tanto, si X'X es regular la solución para b es: b = (X'X)-1 X'y
Propiedades de los estimadores. - La estimación de los elementos del vector b es lineal, insesgada y eficiente. Es decir: E(b) = Var(b) = 2 (X'X)-1 < Var(c) - Este método de estimación no exige normalidad. Es decir, los i pueden tener cualquier tipo de distribución con E( ) = 0 y Var( ) = 2 I . - cov(i,j) = 0 que indica independencia entre los errores o ausencia de autocorrelación. Es decir, el error que se comete en i no debe tener ninguna relación con el que se comete en j. - cov(i, Xj) = 0. Los errores deben ser aleatorios, no debe haber errores sistemáticos. - cov(i, yˆ i ) = 0 (independencia). A continuación se presentan dos ejemplos. Ambos están basados en muestras muy pequeñas (de 3 y 5 sujetos, respectivamente). Esta situación es poco realista, pues en la práctica es necesario emplear muestras mucho mayores. Si se incluye aquí es con el único objeto de ejemplificar el cálculo manual de los procedimientos descritos. Ejemplo 1. Regresión simple Las puntuaciones obtenidas por práctica fueron las siguientes: Sujeto: 1 2 Teórica (X): 3 4 Práctica (Y): 1 5
tres sujetos en una prueba teórica y en una 3 2 0
Suma 9 6
Media 3 2
a). Estimación de parámetros (en puntuaciones directas): 1 3 1 1 1 3 9 * * X 'X 1 4 3 4 2 1 2 9 29
Desv. típica 0.82 2.16
N X i
X i X i2
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
54
1 1 1 1 6 Yi 1 29 9 4.83 1.5 * (X* ' X* ) 1 ; ' X Y 3 4 2 5 23 X Y 6 9 3 1.5 0.5 0 i i 4 .83 1 .5 6 5 .5 b ( X * ' X * ) 1 X * ' Y 1 .5 0 .5 23 2 .5 b). Ecuación de regresión, pronósticos y errores de estimación
Yˆi 5.5 2.5 X i e i
2 1 3 5 .5 ˆY X * b 1 4 2 . 5 4 . 5 1 2 0 . 5 1 2 1 ˆ 5 4 .5 0 .5 e Y Y 0 0 . 5 0 . 5 e'e
1
0 .5
1 0 . 5 0 . 5 1 . 5 0 . 5
Ejemplo 2. Regresión múltiple con dos variables independientes Una muestra aleatoria representativa de una población de directivos de una empresa realiza una prueba de memoria y otra de razonamiento verbal, al tiempo que se registran sus puntuaciones en una prueba de eficacia. A partir de los resultados se desea obtener la ecuación del plano de regresión que permita hacer pronósticos en eficacia a partir de las puntuaciones en memoria y razonamiento. Se dispone de los siguientes datos: Sujeto 1 2 3 4 5 Suma Media D.Típica 30 25 28 32 22 137 27.4 3.975 Memoria (X1) Razonamiento (X2) 15 10 12 14 13 64 12.8 1.924 Eficacia (Y) 34 25 30 38 26 153 30.6 5.459 a). Estimación de los parámetros (en puntuaciones diferenciales): x'
27.4 12.8 ; y 30.6
2.6 2.4 2.6 2.4 0.6 4.6 5.4 X' X 0.6 2.2 2.8 0.8 1.2 0.2 4.6 5.4
2.2 2.8 63.2 16.4 xi21 xi1 xi2 0.8 16.4 14.8 xi2 xi1 xi22 1.2 0.2
AN LISIS DE REGRESI N LINEAL M LTIPLE X'X
55
( 63 . 2 )(14 . 8 ) (16 . 4 )(16 . 4 ) 666 . 4
1 14 .8 16 .4 0.0222 0.0246 666 .4 16 .4 63 .2 0.0246 0.0948 3 .4 5 .6 80 .8 2 . 6 2 . 4 0 .6 4 .6 5 .4 0 .6 X' y 2 . 2 2 . 8 0 .8 1 . 2 0 . 2 31 .6 7 .4 4 .6 0 .0222 0 .0246 80 .8 1.02 1 b (X' X) X' y 0 .0246 0 .0948 31.6 1.01 ( X ' X ) 1
x i1 y i x y i2
b). Ecuaciones de regresión, pronósticos y errores de estimación. En puntuaciones diferenciales.
yˆ i 1 .02 x1 1 .01 x 2 e i Donde: 2 .2 2 .6 2 .4 2 .8 1 . 02 yˆ Xb 0 . 6 0 .8 1 . 2 1 . 01 4 .6 5 . 4 0 . 2 3 . 4 4 . 874 5 . 6 5 . 276 e y yˆ 0 . 6 0 . 196 7 . 4 5 . 904 4 . 6 5 . 306
4 . 874 5 . 276 0 . 196 ; 5 . 904 5 . 306 1 . 474 0 . 324 0 . 404 1 . 496 0 . 706
En puntuaciones directas. Yˆi 10 . 17 1 . 02 X 1 1 . 01 X 2 e i Donde: b 0 Y b1 X 1 b 2 X 2 10 .17
En puntuaciones típicas. zˆ y 0.7413 z x 0.3507 z x e *i i
Donde: b * R xx1 R xy
1
2
yˆ ' yˆ
;
114 . 024
e'e
5 . 177
i
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
56
0.25 D 1 / 2 S xx D 1/ 2 0 1 1 R xx1 0 . 71 0 . 54
R xx
R b*
xy
D 1 / 2 S xy S y 1 / 2
R
1 xx
R
xy
0 15.8 4.1 0.25 0 1 0.54 0.52 4.1 3.7 0 0.52 0.54 1 0 . 76 0 . 54 1 . 41 1 0 . 76 1 . 41
0 . 25 0
1 . 41 0 . 76
0 0 . 52
20 . 2 1 0 . 93 7 . 9 5 . 46 0 . 75
0 . 76 0 . 93 0 . 7413 1 . 41 0 . 75 0 . 3507
3.2. Método de estimación de máxima verosimilitud
El anterior procedimiento es válido independientemente de la distribución de los errores. Si se asume que los errores son normales el modelo de regresión viene dado por: y=X
+
N (0, 2 I) X Np ( , ). Donde, r( ) = p; lo que implica que: r(X) = p En este caso se puede utilizar el método de estimación de máxima verosimilitud. Se trata de estimar los valores del vector de parámetros que hagan más probable el valor de los datos observados. Como se vio en el capítulo 2, la regresión simple es la distribución condicionada de Y sobre X. Asumiendo normalidad:
1
f (Y | X )
Y
2
1 2
e
1 y Y Y ( X X X 2 Y2 ( 1 2 )
2 )
Los estimadores máximo verosímiles se obtienen maximizando la función de verosimilitud: n
L i 1
1 f (Y | X ) 2 2 Y 2 (1 )
n/2
e
2 Y2
n 1 y i Y Y ( X i X X (1 2 ) i 1
2 )
En la práctica se toman logaritmos pues queda una expresión más sencilla: 2
n 1 yi Y Y ( X i X ) log L n log 2 1 2 Y 2 (1 2 ) 2 Y2 (1 2 ) X i 1
Para obtener el estimador máximo verosímil de se iguala la primera derivada de ln L a cero. Mediante este procedimiento se llega a lo siguiente: b = (X'X)-1 X'y
AN LISIS DE REGRESI N LINEAL M LTIPLE
57
En el caso de que la variable Y sea normal la estimación por mínimos cuadrados y máxima verosimilitud proporcionan resultados idénticos (para más detalle véase Rao y Toutenburg, 1995; y Revuelta y Ponsoda, 2000).
4. Verificación del modelo Una vez estimado el modelo hay que valorar si constituye una buena o mala aproximación a nuestro conjunto de datos. Es decir, cabe preguntarse: ¿En qué medida es posible predecir los valores de Y a partir de los de X con el modelo? Una representación gráfica de los datos empíricos y el modelo estimado puede proporcionar una primera aproximación al problema de la verificación del modelo. La figura 3.1. muestra el gráfico de dispersión y la recta de regresión estimada en puntuaciones directas para los datos del ejemplo 1 y la figura 3.2. para los del ejemplo 2:
5 4 o c i t c á r P
3 2
1 0
2.0
2.5
3.0 Teórico
3.5
4.0
Figura 3.1. Recta de regresión para el ejemplo 1
Figura 3.2. Plano de regresión para el ejemplo 2
Asimismo, hay que valorar en qué medida el modelo se ajusta a los datos empíricos y la contribución de las variables independientes en los cambios que se producen en la variable dependiente. A todo esto se le denomina bondad de ajuste. 4.1. Medidas de bondad de ajuste 4.1.1. Descomposición de la varianza
Una parte de la variación de los datos puede explicarse mediante el modelo de regresión ( yˆ ). Sin embargo hay otra parte que queda sin explicar (e). Es decir: (3.7) y yˆ e Calculando la suma de cuadrados de y:
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
58 y'y
( yˆ e )' ( yˆ e ) yˆ ' yˆ yˆ ' e e ' yˆ e ' e yˆ ' yˆ e ' e
En términos de análisis de varianza (o ANOVA):
y y'y SCR yˆ i yˆ ' yˆ ( Xb )' ( Xb ) b ' X ' Xb SCE e i ( y i yˆ i ) e' e y ' y yˆ ' yˆ y ' y b ' X ' Xb 2 i
SCT
2
2
2
La descomposición de la varianza de y con los datos del ejemplo 2 es la siguiente: 3 .4 5 .6 SCT y ' y 3 . 4 5 . 6 0 . 6 7 . 4 4 . 6 0 . 6 119 . 20 7 .4 4 . 6 4.874 5.276 SCR yˆ ' yˆ 4.874 5.276 0.196 5.904 5.306 0.196 114.024 5.904 5.306 1.474 0.324 SCE e' e 1.474 0.324 0.404 1.496 0.706 0.404 5.177 1.496 0.706 Se comprueba que: 119.20 = 114.024 + 5.177 4.1.2. Coeficiente de determinación
Informa sobre el grado de ajuste de los puntos a la recta o al plano de regresión. Es la bondad del modelo de regresión y se calcula mediante el índice estadístico R2: Si: Ry( x1 ,x2 ,...,xp ) ryyˆ Entonces: R 2
yi yˆ i y i yˆi 2
2
y' yˆ y' y yˆ ' yˆ
yˆ ' yˆ (yˆ e)' yˆ (y' y)(yˆ ' yˆ ) (y' y)(yˆ ' yˆ )
yˆ ' yˆ e' e ( yˆ ' yˆ ) 2 SCR SCE 1 1 y' y SCT SCT ( y ' y )( yˆ ' yˆ ) y ' y
AN LISIS DE REGRESI N LINEAL M LTIPLE
59
R2 oscila entre 0 y 1 y es la proporción de varianza de Y que queda explicada por las Xj. En el ejemplo 2: R 2 114 . 024 1 5 . 176 0 . 9566 119 . 20 119 . 20 La memoria y el razonamiento explican el 95.66% de la prueba de eficacia. 4.1.3. Coeficiente de determinación corregido
El coeficiente R2 viene afectado por un cierto efecto inflacionista sobre el grado de ajuste. Esta inflación se srcina en dos hechos: el tamaño muestral (n) y el número de predictores (p). Por tanto, es necesario introducir un factor corrector. El procedimiento consiste en corregir las sumas de cuadrados:
R2 1
e ' e /( n y'y
SCE /( n p ) SCE n 1 p) 1 1 /( n 1) SCT /( n 1) SCT n p
Con lo que se llega a: R 2 1 n 1 (1 R 2 )
n p
Para p > 1, R 2 < R2 y esta diferencia aumenta a medida que aumenta también el número de variables independientes. Si el modelo no incluye el término b0, el numerador es n en lugar de n – 1 y R 2 puede ser menor que 0, cosa que nunca puede ocurrir con R2. En regresión múltiple es más apropiado utilizar R 2 , sobre todo si el tamaño muestral es pequeño y si se desea comparar distintos modelos para pronosticar los valores de una misma variable dependiente. El coeficiente de determinación corregido para el ejemplo 2 es el siguiente:
5 1 R 2 1 (1 0 .9566 ) 0 .9421 52 4.2. Contraste de hipótesis
Los coeficientes obtenidos en la ecuación de regresión son estimadores de los parámetros del modelo. Por ello es necesario realizar una prueba de significación para contrastar si su valor es 0 en la población y calcular los intervalos de confianza de los coeficientes de la regresión. Pueden llevarse a cabo tres tipos de contrastes, para lo cual es necesario que los errores se distribuyan normalmente con media 0 y varianza 2I:
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
60 4.2.1. H0: 0 =
1
=
2
=... =
j
= ... =
p=
0 o bien
H0:
= [0]
Una de las hipótesis a contrastar es si los elementos del vector son nulos. Es decir, la hipótesis sobre linealidad. Para ello se calcula el estadístico F utilizando el formato ANOVA:
FV Regresión Error Total
yˆ ' yˆ
SC gl = b'X'Xb p e'e n-p-1 y'y n-1
MC F F Fp, (n – p –1) MCR / MCE /p e'e / (n-p-1)
yˆ ' yˆ
Con los datos del ejemplo 2 y = 0.05: FV SC gl Regresión 114.02 2 Error 5.176 2 Total 119.20 4
MC 57.01 2.588
F 22.03
F F2, 2 = 19
0.95F2, 2
Consultando la tabla 4 del anexo se observa que con = 0.05 el punto crítico es 19. Puesto que 22.03 > 19 se rechaza H0. Por tanto, la memoria y el razonamiento están linealmente relacionadas con la prueba de eficacia. 4.2.2. H0:
m
= 0 (Correlación múltiple)
Otra forma de determinar si existe relación lineal es si el coeficiente de determinación (R2) es significativo. Se calcula el estadístico F: SCR/ p n p 1 SCR n p 1 SCR n p 1 SCR/ SCT F SCE/(n p 1) p SCE p SCT SCR p 1 (SCR/ SCT)
F
n p 1 R2 ~ F p , ( n p 1 ) p 1 R2
Con los datos del ejemplo 2 se llega a la misma conclusión que con la prueba anterior:
2 0.9566 F 22 .03 19 2 1 0 .9566 4.2.3. H0:
j=
0
Las anteriores pruebas de significación son un indicador de la bondad de ajuste global del modelo. Para comprobar la significación de cada uno de los coeficientes bj se calcula el estadístico T:
T
ˆ
bj ~ t n p 1 c ii
AN LISIS DE REGRESI N LINEAL M LTIPLE
Donde ˆ 2
61
e' e -1 MCE ; cii = i-ésimo elemento de la matriz (X'X) . n p 1
Con los datos del ejemplo 2 y = 0.05:
0.0222 0.0246 (X' X) 1 0.0246 0.0948
MCE 2.588 1.609 1.02 ˆ c11 1 . 609 0 . 0222 0 .2397 ; T1 4.25 ˆ
ˆ
c 22
0.2397 1 .609 0 .0948 0 .4954 ; T2 1.01 2.03 0.4954
Consultando la tabla 2 del anexo se obtiene un valor 0.975 t 2 = 4.303 y se concluye que con = 0.05 ninguno de los coeficientes es significativo.(1) Dado el valor de bj también se puede estimar el intervalo de confianza de su verdadero valor en la población mediante:
b j 1 / 2 t n p 1ˆ c ii Los intervalos de confianza para las variables independientes del ejemplo 2 son: Para X1: 1.02 4.303 (0.2397) = 1.02 1.03 = [-0.01, 2.05] Para X2: 1.01 4.303 (0.4954) = 1.01 2.13 = [-1.12, 3.14]
5. Análisis del cumplimiento de los supuestos Además de preguntarse si el modelo obtiene un buen ajuste, es necesario preguntarse: ¿Es el modelo correcto?. Para que la respuesta sea afirmativa se requiere el cumplimiento de ciertas condiciones de aplicación: que la relación entre las variables independientes y la dependiente sea lineal, que los residuos sean independientes, homogéneos y normales, y que no haya colinealidad entre las variables independientes. A continuación se comenta cada uno de estos supuestos y su procedimiento de comprobación. (1)
Si se desea obtener valores de t que dejan a su izquierda un área diferente a la que aparece en la tabla 2, se puede hacer mediante el SPSS. Por ejemplo, para un área de 0.65 primero se crea la variable gl, que contiene los grados de libertad y más tarde se ejecuta la sintaxis: COMPUTE x = IDF.T(0.65,gl). EXECUTE .
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
62
5.1. Linealidad de la relación
La relación entre cada una de las variables independientes incluidas en el modelo y la variable dependiente ha de ser lineal. Los gráficos parciales entre cada variable independiente y la variable dependiente permiten detectar el tipo de relación entre ambas. En regresión múltiple la representación gráfica de los residuos ayuda en esta detección. Hay que elaborar los diagramas de dispersión de los residuos que cada variable independiente sobre las restantes y la resultan regresióndedelalaregresión variable de dependiente sobre la variable independiente. Con los datos del ejemplo 2 se obtienen los siguientes gráficos: Gráfico de regresión parcial
Gráfico de regresión parcial
6
3
4
2
A I 2 C A 0 C I F -2 E -4 -6 -6
IA 1 C A 0 IC F -1 E -4
-2
0
2
-2 -3 -3
4
MEMORIA
-2
-1
0
1
2
RAZONAMIENTO
Figura 3.3. Gráfico de regresión parcial para memoria
Figura 3.4. Gráfico de regresión parcial para razonamiento
Este supuesto puede incumplirse cuando se omiten variables independientes importantes, la relación entre éstas y la variable dependiente no es lineal, los parámetros no son constantes o se da aditividad, es decir, alguna variable independiente interactúa con otra. En estos casos se puede utilizar otro tipo de regresión diferente a la lineal o efectuar alguna transformación en las variables que permita linealizar el modelo. 5.2. Independencia
Los residuos se comportan como una variable aleatoria. Por tanto, han de ser independientes entre sí, de las variables independientes y de los pronósticos. En caso de no cumplirse este supuesto, se produce el problema de la autocorrelación. La prueba de Durbin-Watson permite conocer el grado de independencia entre los residuos: n n DW (ei ei 1 ) 2 / ei2 Donde: 0 DW 4 i 2
i 1
Si los residuos son independientes DW = 2. Se puede asumir independencia entre residuos si 1.50 DW 2.50. En los datos del ejemplo 2 se asume pues DW = 1.09.
AN LISIS DE REGRESI N LINEAL M LTIPLE
63
5.3. Homocedasticidad
La variación de los residuos debe ser uniforme a lo largo de los valores pronosticados ( yˆ i ). Esto implica que el tamaño de los residuos es independiente del de los valores pronosticados. Para comprobar el cumplimiento de este supuesto se elabora el diagrama de dispersión entre los pronósticos y los residuos tipificados y se comprueba que no existe relación lineal entre las variables. El diagrama de dispersión en los datos del ejemplo 2 se presenta en la figura 3.5. Como se observa, no existe relación lineal entre los pronósticos y los residuos. o d ac if i ip t o u d sei R n ó sei rg e R
Gráfico de dispersión 1.0 .5 0.0 -.5 -1.0 -1.5
-.5 -1.0
.5 0.0
1.5 1.0
Regresión Valor pronosticado tipificado
Figura 3.5. Gráfico de dispersión entre zy’ y zy – y’ 5.4. Normalidad
Si se asume, para cada valor de la variable independiente, los residuos se distribuyen normalmente con media cero y varianza 2. Hay tres formas de comprobar este supuesto. La primera elaborar el histograma de los residuos tipificados para observar el grado de alejamiento de su distribución con respecto a la distribución teórica normal. En los datos del ejemplo 2: Histograma 1.2 1.0
ica n e ceu r F
.8 .6 .4 .2 0.0 -1.00
-.50
0.00
.50
1.00
Figura 3.6. Histograma de residuos tipificados
64
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
La segunda, elaborar el gráfico P-P de probabilidad normal que permite comparar la probabilidad acumulada observada y la esperada según la curva normal. La discrepancia mayor o menor es un indicador del mayor o menor alejamiento de los residuos a la normalidad. Este tipo de gráficos no son muy informativos a no ser que el tamaño muestral sea suficientemente grande ( n 20). El gráfico P-P correspondiente a los datos del ejemplo 2 se muestra en la figura 3.7. Con un n = 5, las desviaciones de los puntos a la normalidad no permiten concluir que los residuos no se distribuyen normalmente. Gráfico P-P normal 1.00
ad ar e .75 p es m .50 cu a .25 b o r P 0.00 0.00
.25
.50
.75
1.00
Prob acum observada
Figura 3.7. Gráfico P-P de probabilidad normal
Por último, también se puede emplear el test de normalidad KolmogorovSmirnov y comprobar que no sea significativo. Los resultados que ofrece el SPSS en los datos del ejemplo 2 no permiten rechazar la hipótesis sobre normalidad: Prueba de Kolmogorov-Smirnov para una muestra N Parámetros normales a,b Diferencias más extremas
Media Desviación típica Absoluta Positiva Negativa
Z de Kolmogorov-Smirnov Sig. asintót. (bilateral)
Standardized Residual 5 2.9802E-09 .7071068 .216 .216 -.161 .483 .974
a. La distribución de contraste es la Normal. b. Se han calculado a partir de los datos.
5.5. Ausencia de colinealidad
Las variables independientes no deben tener correlaciones demasiado altas. Cuando se incumple este supuesto se dice que existe colinealidad.
AN LISIS DE REGRESI N LINEAL M LTIPLE
65
La existencia de colinealidad entre las variables puede srcinar diversos problemas. Si la colinealidad es perfecta, no se pueden estimar los coeficientes de la ecuación de regresión. Si es parcial, aumenta el tamaño de los residuos tipificados y las estimaciones de los coeficientes son muy inestables y difíciles de interpretar. Para detectar el problema de la colinealidad entre variables independientes se puede observar si se da alguno de los siguientes indicadores: a) El estadístico F del modelo es significativo pero ninguno de los coeficientes de regresión parcial lo es y los coeficientes de correlación son muy grandes. - En los datos del ejemplo 2 el estadístico F es significativo y ninguno de los bj lo es, aunque esto puede deberse al reducido tamaño muestral. b) Los coeficientes de regresión parcial tipificados están fuera del rango 1 < b*j < -1. - En los datos del ejemplo 2 no es así pues: b*1 = 0.74 y b*2 = 0.36. c) Los valores de la tolerancia de las Xj, que se calculan mediante la expresión: 1- R2j(1,2, ..., p), son menores de 0.01 y los factores de inflación de la varianza (FIV), los inversos de la tolerancia, son grandes. - En los datos del ejemplo 2 no sucede así pues: Estadísticos de colinealidad
MEMORIA
Tolerancia .712
FIV 1.404
RAZONAM
.712
1.404
d) En el análisis de componentes principales realizado sobre la matriz estandarizada de productos cruzados entre las variables independientes hay varios autovalores próximos a cero. Un componente explica mucha varianza de los coeficientes de dos o más variables. - En los datos del ejemplo 2 se obtienen los siguientes resultados: Proporciones de la varianza
2
Autovalor 2.983 8.951E-03
Indice de condición 1.000 18.256
(Constante) .00 .88
MEMORIA .00 .03
RAZONAM .00 .54
3
7.839E-03
19.508
.12
.97
.46
Dimensión 1
Dos de las tres dimensiones tienen autovalores próximos a 0. El índice de condición es la raíz del cociente entre el autovalor mayor y el de i. Si es mayor que 15 indica colinealidad y de 30 colinealidad severa. En este caso existe colinealidad. Además el componente 3 explica varianza de los coeficientes de dos variables.
66
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
Si se detecta la existencia de colinealidad, para corregirla, se puede aumentar el tamaño muestral, generar nuevas variables en base a combinaciones lineales de las variables altamente correlacionadas, o bien utilizar un procedimiento jerárquico a la hora de incluir las variables en la ecuación. Esta es una forma de selección de variables que permite elegir sólo aquellas que expliquen una parte de varianza distinta a la de las variables ya incluidas en el modelo. En el siguiente apartado se exponen diferentes procedimientos de introducción de variables.
6. Simplificación de modelos Los criterios básicos para la selección de variables son: La significación de los coeficientes (p < 0.05) y los valores de la tolerancia de Xj que deben ser grandes (mayores que 0.01). En caso de utilizar una sola variable independiente se selecciona la que más correlacione con la variable dependiente. Si se utilizan varias, dado que los coeficientes bj no indican la importancia relativa de la variable, es mejor utilizar los coeficientes estandarizados:
b *j b j
sxj sy
No obstante, estos coeficientes no bastan para indicar la importancia relativa de las variables independientes, pues su posición en la ecuación no es fija y están afectados por las correlaciones entre ellas. Cuando las Xj están muy relacionadas también lo están los bj y tanto más cuanto mayor sea la correlación múltiple de una variable independiente cualquiera y todas las demás [R2j (1,2, ..., p)]. Al introducir una nueva variable Xj en un modelo de regresión múltiple hay que estudiar el incremento que se produce sobre R2. Es decir: R2 Rp2 Rp2 j . El coeficiente R2 permite conocer la importancia de la Xj introducida. Si al introducir la variable, se produce un incremento grande y significativo, la variable es importante, aporta información propia. La prueba de significación para decidir sobre el incremento se realiza mediante el estadístico F: ( SCE SCE ) /( p q ) ( R 2 R 2 ) /( p q ) q p F (1p R 2 q) /( n p ) ~ F( p q ),( n p ) SCE q /( n p ) p Donde p = [1,2, ...,j, ...,p] es el vector de parámetros del modelo completo (también llamado modelo saturado), q = [1,2, ...,j, ...,q] el vector de parámetros del modelo reducido y R2p y R2q los coeficientes de determinación correspondientes a cada modelo, respectivamente.
AN LISIS DE REGRESI N LINEAL M LTIPLE
67
Si se parte del modelo saturado y se elimina una o más variables y el estadístico F es significativo, las variables eliminadas aportan variación significativa, de modo que el modelo reducido no es adecuado. Si F no es significativo, el modelo reducido es satisfactorio y explica la variación en la variable dependiente tan adecuadamente como el modelo saturado. Para dos modelos cualesquiera el incremento en el ajuste es: 2
2
2
R R p Rq ;
R2 p 1 Rq2
Donde
p es la proporción de reducción en la varianza error.
F
n p 1 p ~ F ( n p 1), ( p q 1 ) p q 1
Existen diferentes procedimientos secuenciales para decidir si incluir o excluir variables independientes en la ecuación de regresión. Dado un conjunto de variables independientes, se trata de seleccionar el mínimo número de ellas que expliquen el máximo de varianza posible de la variable dependiente. A continuación se describen cuatro métodos secuenciales: 6.1. Backward (método hacia atrás)
Consiste en calcular la correlación múltiple de la variable dependiente con todo el conjunto de variables independientes (modelo saturado). A continuación se procede a eliminar cada variable independiente de la ecuación de forma progresiva, según su menor coeficiente de regresión. Posteriormente se calcula el decremento en R2 y su correspondiente estadístico:
F
R p21 R p22 ~ F1,( n p ) (1 R p21 ) /( n p )
Se elimina la variable si el decremento no es significativo. Es decir, si F < F El proceso de eliminación progresiva de variables continúa hasta que el decremento en R2 sea significativo. Es decir, hasta que no se pueda eliminar ninguna variable más. 1- 1, ( n – p).
6.2. Forward (método hacia delante)
Este procedimiento recorre el camino inverso del anterior. Consiste en ir introduciendo cada una de las variables independientes en el modelo de forma progresiva. La variable que entra primero es la que tenga mayor correlación simple con la variable dependiente, siempre y cuando su valor F
68
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
sea significativo. A continuación se procede a calcular los coeficientes de correlación parciales entre cada una de las variables no incluidas y la variable dependiente eliminando el efecto de la variable ya incluida. Se selecciona la variable con mayor correlación parcial y se estudia el incremento en R2 y su correspondiente F: R p22 R p21 F (1 R p21 ) /( n p ) Se incluye la variable si el incremento en R2 es significativo (o si F > 1- F 1, El proceso se repite hasta que el incremento en R2 deja de ser significativo. Es decir, hasta que no se pueda incluir ninguna variable más. (n – p)).
6.3. Stepwise (método por pasos sucesivos)
Este procedimiento es una mezcla de los anteriores. De la misma forma que en el procedimiento forward, se incluyen variables independientes en la ecuación en pasos sucesivos. En este caso, en cada paso se analiza la situación de cada una de las variables (incluidas y no incluidas) y su posible eliminación o inclusión. En el primer paso se selecciona la variable independiente ( Xj) de mayor correlación con la variable dependiente y se retiene en el modelo si R2 es significativo. A continuación se selecciona la segunda variable independiente (Xk) con mayor correlación parcial con la variable dependiente y se calcula R2 y su prueba de significación con ambas variables en el modelo. La variable se retiene si F > 1-F1, (n-2-1). En el siguiente paso se selecciona la Xl de mayor correlación con la variable dependiente y se analizan las posibilidades de que Xj, Xk y Xl formen parte del modelo: (1) inclusión de Xl estando las otras dos; (2) eliminación de Xk estando las otras dos; (3) eliminación de Xj estando las otras dos. El proceso continua hasta que no se puedan incluir ni eliminar más variables independientes. Ejemplo 3. Regresión múltiple con cinco variables independientes En una muestra de 100 empleados de una empresa se miden dos variables de personalidad: neuroticismo (N) y extroversión (E), tres de inteligencia: razonamiento abstracto (RA), razonamiento verbal (RV) y razonamiento numérico (RN) y el rendimiento (RTO) en una tarea de ensamblaje. Se desea encontrar la ecuación de regresión que permita predecir RTO a partir de las variables de personalidad y de inteligencia. Se dispone de la matriz de correlaciones y de los estadísticos descriptivos para todas las variables:
AN LISIS DE REGRESI N LINEAL M LTIPLE
RA 1.00 RN 0.10 RV 0.15 R E 0.12 N 0.16 RTO 0.60 x ' 50
1.00 0.16 0.20 0.16 0.40
69
1.00 0.10 1.00 0.20 0.00 1.00 0.30 0.20 0.50 1.00
50 50 50 50 ; s 'x 10 10 10 10 10 ; y 10; s y 2
a). Especificación del Modelo
RA
E
RN
RTO N
RV
RTOi = 0 +1 RAi + 2 RVi + 3 RNi +4 Ei + 5 Ni +Ei b). Estimación de parámetros (mediante mínimos cuadrados) Variable RA RV RN E N Constante (b0)
bj 0.098 0.021 0.052 0.016 0.072 -2.943
b*j 0.491 0.105 0.261 0.078 0.359
t 7.576 1.602 3.969 1.206 5.466 -2.567
p 0.0000 0.1126 0.0001 0.2309 0.0000 0.0000
c). Verificación del modelo
R 2 0.6257 ;
R2 1
100 1 (1 0.6257 ) 0.60994 100 5
d). Pruebas de significación
ANOVA. FV Regresión Error Total Se comprueba que:
SC 247.78 148.22 396.00
gl 5 94 99
MC 49.56 1.58
F 31.43
p 0.0000
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
70
R12
247.78 0.6257; 396
F
0.6257 / 5 31.43 (1 0,6257) / 94
El ajuste es significativo pues se rechaza H0: = [0]. Es decir, hay relación lineal entre las variables independientes y la variable dependiente. Todos los parámetros de las variables independientes tienen efectos significativos excepto los de extraversión (p = 0.2309) y razonamiento verbal (p = 0.1126). Por tanto, cabe plantearse la simplificación del modelo. e). Simplificación del modelo
Modelo 2: se elimina E. Los resultados de significación son: Variable RA RV RN N Constante (b0) FV Regresión Error Total
la estimación de parámetros y las pruebas de
bj 0.100 0.022 0.055 0.071 -2.392 SC
245.49 150.51 396.00
b*j 0.499 0.110 0.276 0.354
t 7.719 1.681 4.258 5.392 -2.270
p 0.000 0.096 0.000 0.000 0.025
gl
MC
F
p
4 95 99
61.37 1.58
38.74
0.000
Por tanto: RTOi = -2.392+ 0.100 RAi + 0.022 RVi + 0.055 RNi + 0.071 Ni + Ei Con el modelo 2: R22
245.49 0.619924; R 22 0.60391 ( p 0.0000) 396
Donde:
F
( R12 R22 ) /(6 5) (0.6257 0.6199) / 1 0.006 1.5 ( p 0.23) (1 0.6257) / 95 0.004 (1 R12 ) /(100 5)
Al eliminar E, el decremento en F no es significativo por lo que el modelo 2 explica tan bien RTO como el saturado.
Modelo 3: se eliminan E y RV Variable bj RA 0.103 RN 0.058 N 0.074 Constante (b0) -1.728
b*j 0.512 0.289 0.372
t 7.886 4.460 5.687 -1.752
p 0.000 0.000 0.000 0.083
AN LISIS DE REGRESI N LINEAL M LTIPLE
FV Regresión Error Total
SC 241.01 154.99 396.00
gl 3 96 99
71
MC 80.34 1.61
F 49.76
p 0.0000
El modelo 3 queda como: RTOi = -1.728+ 0.103 RAi + 0.058 RNi + 0.074 Ni + Ei Donde: R32
241 .01
0 .6086 ;
R 32 0.5964 ( p 0.0000 )
396
F
( R12 R32 ) /(6 4) (0.6257 0.6086) / 2 0.009 2.14 ( p 0.096) (1 0.6257) / 96 0.004 (1 R12 ) /(100 4)
Al eliminar E y RV, el decremento en F no es significativo por lo que el modelo 3 explica tan bien el RTO como el modelo saturado.
Modelo 4: se eliminan E, RV, RN y RA Variable N Constante (b0)
bj 1.000 5.000
b*j 0.500
t 5.715 5.606
FV Regresión
SC 99.00
gl 1
MC 99.00
Error Total
297.00 396.00
98 99
3.03
F 32.67
p 0.000 0.000 p 0.0000
El modelo 4 queda como: RTO = 5 + Ni + Ei Donde: R 42
F
99 0 .25 ; 396
R 24 0 .24 ( p 0 .0000 )
( R32 R42 ) /(4 2) (0.60861 0.25) / 2 0.179 44.75 ( p 0.0000) (1 0.6081) / 96 0.004 (1 R32 ) /(100 4)
En este caso el decremento con respecto al modelo 3 es significativo. Por tanto, el modelo 3 es el que mejor explica la varianza en RTO y el más parsimonioso. f). Procedimientos Secuenciales Tanto por el procedimiento Backward, como por los procedimientos Forward y Stepwise, se llega en tres pasos a la conclusión de que el modelo que incluye las variables RA, RN y N (modelo 3) es el más parsimonioso y el que mejor explica la varianza en RTO.
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
72
Los resultados finales del tercer paso son idénticos en los tres procedimientos y coinciden en que el modelo 3 es el más apropiado para explicar la varianza de la variable RTO:
Variable RA RN N Constante (b0) FV Regresión Error Total
bj 0.102 0.058 0.074 -1.728 SC 241.008 154.992 396.000
b*j 0.512 0.289 0.372 gl 3 96 99
t 7.876 4.460 5.687 -1.752 MC 80.336 1.614
F 49.759
p 0.000 0.000 0.000 0.083 p 0.000
Donde: RTOi = -1.728+ 0.102 RAi + 0.058 RNi + 0.074 Ni + Ei
R 2 0 .60861 ;
R 2 0 .59638
7. El análisis de regresión múltiple y el lenguaje MATRIX del SPSS Cuando se dispone de los datos srcinales sobre las variables independientes y la variable dependiente, se introducen en el editor de datos del SPSS y se utiliza el procedimiento regresión lineal para estimar los coeficientes del más modelo, evaluar ajuste y comprobar aplicación (para detalle véase el Pardo y Ruiz, 2002). las condiciones de Por ejemplo, con los datos del ejemplo 2 se obtiene el siguiente cuadro de diálogo:
Fi ura 3.8.1. Procedimiento Re resión lineal del SPSS
AN LISIS DE REGRESI N LINEAL M LTIPLE
73
A continuación se seleccionan las siguientes opciones dentro de los cuadros de diálogo ‘Estadísticos’y ‘Gráficos’:
Figura 3.8.2. Regresión lineal: Estadísticos
Figura 3.8.3. Regresión lineal: Gráficos
El resultado que ofrece el SPSS con estas selecciones aparece en el visor y es el siguiente: Variables introducidas/eliminadas b Modelo 1
Variables introducidas RAZONAM, MEMORIA a
Variables eliminadas .
Método Introducir
a. Todas las variables solicitadas introducidas b. Variable dependiente: EFICACIA
Resumen del modelo b
Modelo 1
R .978a
Rcuadrado .957
R cuadrado corregida .913
Error típ. de la estimación 1.61
Durbin-Watson 1.086
a. Variables predictoras: (Constante), RAZONAM, MEMORIA b. Variable dependiente: EFICACIA
ANOVAb Suma de cuadrados
gl
Media cuadrática
Regresión Residual
114.024 5.176
2 2
57.012 2.588
Total
119.200
4
Modelo 1
a. Variables predictoras: (Constante), RAZONAM, MEMORIA b. Variable dependiente: EFICACIA
F
Sig.
22.027
.043a
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
74
Coeficientes
Coeficientes Coeficientes no estandariza estandarizados dos Mode lo 1 (Constante) MEMORIA
Error B típ. -10.168 6.262
Intervalo de Estadísticos de confianza para B al 95% colinealidad
Beta
Límite Límite t Sig. inferior superior -1.62 .246 -37.110 16.774
Toler ancia
FIV
1.017
.240
.740
4.241 .051
-.015
2.048
.712
1.404
RAZONAMIENT 1.008
.495
.355
2.035 .179
-1.123
3.140
.712
1.404
Diagnósticos de colinealidad
Modelo Dimensión Autovalor 1 1 2.983 2 8.951E-03 3
7.839E-03
Proporciones de la varianza
Indice de condición 1.000
(Constante) .00
MEMORIA .00
RAZONAMIENTO .00
18.256
.88
.03
.54
19.508
.12
.97
.46
Los gráficos obtenidos son los mismos que los de las figuras 3.3., 3.4., 3.5., 3.6. y 3.7. Como se observa, los resultados coinciden exactamente con los cálculos hechos a mano para el ejemplo 2 del apartado 3.1. Si no se dispone de los datos srcinales y sólo se conocen los estadísticos y la matriz de correlaciones (o la de covarianzas), se sintaxis puede llevar adescriptivos cabo la regresión lineal mediante el lenguaje MATRIX. La que corresponde al ejemplo anterior es la siguiente: MATRIX DATA VAR X1 X2 Y /format lower diag/cont corr mean sd/n=5. Begin data. 1.000 .536 1.000 .931 .752 1.000 27.40 12.80 30.60 3.97 1.92 5.46 End data. REGRESSION /matrix=in(*) /variables=X1 to Y /MISSING LISTWISE /STATISTICS COEFF OUTS CI R ANOVA COLLIN TOL /DEPENDENT Y /METHOD=ENTER X1 X2 .
Cuadro 3.1. Sintaxis del lenguaje MATRIX para el ejemplo 2
Al ejecutar esta sintaxis, el SPSS genera un fichero en el editor de datos del SPSS que incluye el nombre y tipo de variables, el tamaño muestral, el vector de medias y el de desviaciones típicas y la matriz de correlaciones. La fi ura 3.9. muestra el as ecto ue tiene dicho fichero.
AN LISIS DE REGRESI N LINEAL M LTIPLE
75
Figura 3.9. Fichero de datos que genera el SPSS con la sintaxis del cuadro 3.1.
Los resultados obtenidos son iguales a los anteriores aunque no incluyen el estadístico de Durwin-Watson ni los gráficos para los residuos, pues no pueden obtenerse si no se dispone de los datos srcinales. Por tanto, el procedimiento MATRIX proporciona los resultados del análisis de regresión lineal y tan sólo permite comprobar el supuesto de ausencia de colinealidad. Para comprobar los restantes supuestos se necesitan los datos srcinales. A continuación se resuelve el ejemplo 3 del apartado 6. En este caso, se pone a prueba los procedimientos secuenciales de simplificación de modelos. Para obtener estos resultados mediante los menús del SPSS se realizan las mismas selecciones que en la figura 3.8.1., que permite escoger diferentes métodos de ’selección variables (‘pasos o stepwise ’, ‘hacia atrás o backward o ‘hacia de delante o forward ’) sucesivos y se selecciona la opción ‘cambio en R cuadrado’ de la figura 3.8.2. La sintaxis del lenguaje MATRIX para resolver este ejemplo con el método de selección de variables hacia detrás es: MATRIX data var RA RN RV E N RTO /format lower diag/cont corr mean sd/n=100. Begin data. 1.000 .10 1.000 .15 .16 1.000 .12 .20 .10 1.000 .16 .16 .20 .00 1.000 .60 .40 .30 .20 .50 50 50 50 50 50 10 10 10 10 10 End data.
1.000 10 2
REGRESSION /matrix=in(*) /variables=RA RN RV E N RTO /MISSING LISTWISE /STATISTICS COEFF OUTS CI R ANOVA CHANGE COLLIN TOL /CRITERIA=PIN(.01) POUT(.05) /NOORIGIN /DEPENDENT RTO /METHOD=BACKWARD RA RN RV E N .
Cuadro 3.2. Sintaxis de MATRIX para ejemplo 3
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
76
Los resultados obtenidos al ejecutar esta sintaxis son los siguientes: Variables introducidas/eliminadasb Mod elo 1
Variables introducidas N, E, RA, RV, RN
Variables eliminadas
Método
a
Introducir
2
Hacia atrás (criterio: Prob. de F para eliminar >= .050).
E
3
Hacia atrás (criterio: Prob. de F
RV
para eliminar >= .050).
a. Todas las variables solicitadas introducidas b. Variable dependiente: RTO
Resumen del modelo
Estadísticos de cambio R cuadrado corregida .606
Error típ. de la estimación 1.255720
Cambio en R cuadrado .626
Cambio enF gl1 31.427 5
Sig. del cambio en F .000
Mod elo 1
R .791a
R cuadrado .626
2
.787b
.620
.604
1.258716
-.006
1.454
1
96
.231
3
.780c
.609
.596
1.270629
-.011
2.826
1
97
.096
gl2 94
a. Variables predictoras: (Constante), N, E, RA, RV, RN b. Variables predictoras: (Constante), N, RA, RV, RN c. Variables predictoras: (Constante), N, RA, RN
El SPSS proporciona los resultados en tres pasos. En el primero, se ha introducido el modelo saturado y se obtiene un coeficiente de determinación de 0.626. En el segundo, se elimina la variable E, produciéndose un cambio en R cuadrado de 0.006 puntos no significativo ( p = 0.231). En el tercer paso, se elimina la variable RV y el cambio en R cuadrado con respecto al modelo anterior es 0.011 y no es significativo (p = 0.096). No pueden eliminarse más variables del modelo, pues el decremento sería significativo. Por tanto, el mejor modelo es el que incluye las variables N, RA y RN pues explica un 61% de la varianza de la variable RTO. A continuación aparecen los resultados de las pruebas de significación y de la estimación de los coeficientes para cada uno de los modelos.
AN LISIS DE REGRESI N LINEAL M LTIPLE
77
ANOVA Modelo 1
2
3
Regresión
Sumadecuadrados 247.778
gl 5
Mediacuadrática 49.556
Residual
148.222
94
Total
396.000
99
Regresión
245.485
4
61.371
Residual
150.515
95
1.584
Total
396.000
99
Residual
241.008 154.992
3 96
Total
396.000
99
F 31.427
Sig. .000a
38.736
.000b
49.759
.000
1.577
c
Regresión 80.336 1.614
a. Variables predictoras: (Constante), N, E, RA, RV, RN b. Variables predictoras: (Constante), N, RA, RV, RN c. Variables predictoras: (Constante), N, RA, RN
Coeficientes
Coeficientes no estandarizados Mod elo 1
B (Constante) -2.943 RA .098
Coeficientes estandarizad os
Intervalo de confianza para B al 95%
Estadísticos de colinealidad
Error típ. 1.146
Beta
t -2.567
Sig. .012
Límite inferior -5.219
Límite superior -.667
Tolera ncia
FIV
.013
.491
7.576
.000
.073
.124
.947
1.056
.052
.013
.261
3.969
.000
.026
.078
.921
1.086
E
.021 .016
.013 .013
.105 .078
1.602 1.206
.113 .231
-.005 -.010
.047 .041
.927 .943
1.079 1.060
N
.072
.013
.359
5.466
.000
.046
.098
.925
1.081
-2.270
.025
-4.484
-.300
RN RV
2
3
(Constante) -2.392 RA .100
1.054 .013
.499
7.719
.000
.074
.126
.956
1.046
RN
.055
.013
.276
4.258
.000
.029
.081
.954
1.048
RV
.022
.013
.110
1.681
.096
-.004
.048
.931
1.074
N
.071
.013
.354
5.392
.000
.045
.097
.928
1.077
-1.752
.083
-3.685
.230
(Constante) -1.728 RA .102
.986 .013
.512
7.886
.000
.077
.128
.969
1.032
RN
.058
.013
.289
4.460
.000
.032
.084
.969
1.032
N
.074
.013
.372
5.687
.000
.048
.100
.953
1.049
Como se observa en la tabla ‘Anova’, los resultados coinciden con los cálculos realizados con anterioridad. El ajuste es significativo pues se rechaza la hipótesis nula H0: = [0]. Es decir, existe relación lineal entre las variables independientes y la variable dependiente. Por tanto, el modelo con las variables independientes RA, 2RN y N es el más parsimonioso y el que mejor explica la varianza en RTO (R = 0.61; p < 0.0001). De la tabla ‘Coeficientes’ se deducen los coeficientes j para cada uno de los modelos en puntuaciones directas y típicas y las pruebas de significación H0: j = 0. Como se observa, en el modelo saturado todos los parámetros de
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
78
las variables independientes tienen efectos significativos excepto los de E (p = 0.2309) y RV (p = 0.1126) que son las variables que se han ido eliminando en cada paso. A continuación se muestran los resultados sobre los diagnósticos de colinealidad para cada uno de los modelos: Diagnósticos de colinealidad
Modelo 1
Dimensión 1
Autov alor 5.858
Indice de condición 1.000
(Constante) .00
2
.039
12.200
.00
.02
.06
.06
.46
.30
3
.034
13.114
.00
.66
.29
.03
.01
.05
4
.031
13.772
.00
.04
.16
.78
.01
.15
5
.028
14.582
.00
.16
.40
.04
.33
.36
6
.010
24.265
1.00
.12
.08
.09
.18
.14
1
4.892
1.000
.00
.00
.00
.00
.00
2
.034
11.942
.00
.57
.49
.00
.00
3
.032
12.394
.00
.22
.32
.36
.22
4
.030
12.675
.00
.01
.00
.50
.65
5
.011
20.742
1.00
.20
.19
.13
.13
1
3.922
1.000
.00
.00
.00
.00
2
.034
10.696
.00
.54
.54
.00
3
.031
11.203
.00
.19
.19
.79
4
.012
17.773
1.00
.27
.27
.21
2
3
Proporciones de la varianza RA RN RV E .00 .00 .00 .00
N .00
Como se observa, los resultados para el modelo 3 indican la ausencia de colinealidad severa, pues ninguno de los índices de condición supera el valor 30 y ningún componente explica mucha varianza de los coeficientes de más de dos variables. Por último, se muestra la tabla que resume las pruebas de significación y las correlaciones parciales entre las variables excluidas en cada paso y la variable dependiente: Variables excluidas
Estadísticos de colinealidad Modelo 2
E
Beta dentro .078a
3
E
.085b
1.304
.195
.133
.948
1.055
.932
RV
.110b
1.681
.096
.170
.931
1.074
.928
t 1.206
Sig. .231
Correlación parcial .123
Tolerancia .943
FIV 1.060
Tolerancia mínima .921
a. Variables predictoras en el modelo: (Constante), N, RA, RV, RN b. Variables predictoras en el modelo: (Constante), N, RA, RN
Como puede verse, los resultados justifican la eliminación de cada una de las variables.
AN LISIS DE REGRESI N LINEAL M LTIPLE
79
Para llevar a cabo el método de selección de variables ‘hacia delante’ y ‘por pasos’ se ejecuta la misma sintaxis que la del cuadro 3.2. cambiando tan sólo la línea /METHOD que en lugar de BACKWARD debe decir FORWARD o STEPWISE, respectivamente. El lector puede comprobar que al ejecutar la sintaxis por ambos procedimientos se llega al siguiente resultado: Variables introducidas/eliminadasa Mod elo 1
Variables introducidas RA
Variables eliminadas .
Método Hacia adelante(criterio: Prob. de Fpara entrar <= .010)
2 3
N
.
Haciaadelante(criterio:Prob.deFparaentrar<=.010)
RN
.
Hacia adelante(criterio: Prob. de Fpara entrar <= .010)
a. Variable dependiente: RTO Resumen del modelo
Estadísticos de cambio R cuadrado corregida .353
Error típ. de la estimación 1.608
Cambio en R cuadrado .360
Cambio enF 55.125
gl1 1
gl2 98
Sig. del cambio en F .000
Mod elo 1
R .600a
R cuadrado .360
2
.726b
.528
.518
1.389
.168
34.387
1
97
.000
3
.780c
.609
.596
1.271
.081
19.893
1
96
.000
a. Variables predictoras: (Constante), RA b. Variables predictoras: (Constante), RA, N c. Variables predictoras: (Constante), RA, N, RN
Coeficientes Intervalo de Estadísticos confianza para B al de 95% colinealidad
Coeficientes no Coeficientes estandarizados estandarizados Mod elo 1 2
3
B (Constante) 4.000 RA .120
Error típ. .824
Beta
t 4.855
Sig. .000
Límite inferior 2.365
Límite superior 5.635
.016
.600
7.425
.000
.088
.152
.558
.578
-1.322
2.357
Toler ancia
FIV
1.000 1.000
(Constante) .517 RA .107
.927 .014
.534
7.548
.000
.079
.135
.974
1.026
N
.014
.415
5.864
.000
.055
.111
.974
1.026
-3.685
.230
.083
(Constante) -1.728
.986
RA N
.102 .074
.013 .013
.512 .372
7.886 5.687
.000 .000
.077 .048
.128 .100
.969 .953
1.032 1.049
RN
.058
.013
.289
4.460
.000
.032
.084
.969
1.032
-1.752 .083
Como se observa, por ambos procedimientos se llega a la misma conclusión que con el método ‘hacia detrás’ comentado con anterioridad. Es
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
80
decir, que el modelo que incluye las variables RA, RN y N es el que mejor explica la varianza en RTO. Con el procedimiento MATRIX también es posible llevar a cabo el análisis de regresión leyendo la matriz de correlaciones desde un fichero de texto. No obstante, téngase en cuenta que en este caso se necesita incluir también el vector de medias y el de desviaciones típicas. A continuación se presenta un ejemplo: Si se tiene la siguiente matriz de correlaciones y los vectores de medias y el de desviaciones típicas, respectivamente, para seis variables y 200 sujetos en el fichero "C:\datos.txt": 1.0000 0.6200 0.1700 0.0900 0.2700 0.7900 50 50 10 10
0.6200 1.0000 0.1200 0.1300 0.1300 0.5800 50 50 10 10
0.1700 0.0900 0.1200 0.1300 1.0000 0.0200 0.0200 1.0000 0.1700 0.1200 0.4700 0.0800 50 10 10 2
0.2700 0.1300 0.1700 0.1200 1.0000 0.5800
0.7900 0.5800 0.4700 0.0800 0.5800 1.0000
La sintaxis para que el SPSS lea este archivo de texto y lleve a cabo una regresión por ejemplo de X6 sobre X1, X2, X3, X4 y X5 en un procedimiento secuencial stepwise es la siguiente: MATRIX DATA VAR x1 x2 x3 x4 x5 x6 /FILE="C:\datos.txt" /FORMAT FULL /CONT CORR MEAN SD /N=200 . REGRESSION /matrix=in(*) /variables=x1 x2 x3 x4 x5 x6 /MISSING LISTWISE /STATISTICS COEFF OUTS CI R ANOVA CHANGE COLLIN TOL /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT x6 /METHOD=STEPWISE x1 x2 x3 x4 x5.
Al ejecutar la sintaxis, la matriz R, el vector de medias y el vector de desviaciones aparecen en el editor de datos del SPSS de la misma forma que en la figura 3.9.
AN LISIS DE REGRESI N LINEAL M LTIPLE
81
Los resultados del análisis se muestran en el visor de resultados del SPSS. El resultado más relevante es el siguiente: Resumen del modelo
Estadísticos de cambio Mod
R
R cuadrado
Error típ. de la
Cambio en R
Sig. del cambio
Cambio
elo 1
R .790a
cuadrado .624
corregida .622
estimación 1.229
cuadrado .624
2
.877b
enF gl1 328.736 1
.769
.767
.966
.145
123.771
3
.925c
.855
.853
.767
.086
116.502
4
.933d
.871
.869
.725
.016
24.233
gl2 198
en F .000
1
197
.000
1
196
.000
1
195
.000
a. Variables predictoras: (Constante), X1 b. Variables predictoras: (Constante), X1, X5 c. Variables predictoras: (Constante), X1, X5, X3 d. Variables predictoras: (Constante), X1, X5, X3, X2
El lector puede comprobar que con este procedimiento el mejor modelo es: X6’ = -3.623 + 0.108 X1 + 0.032 X2 + 0.059 X3 + 0.072 X5 (con R2 = 0.871 y p < 0.0001).
8. Ejercicios 1.
Una muestra aleatoria, representativa de una población de vendedores de una empresa, realiza una prueba de extroversión (X1) y otra de fluidez verbal (X2), al tiempo que se registran sus puntuaciones en ventas de un producto (Y). Los resultados obtenidos fueron los siguientes:
X1: X2: Y:
4 1 10
8 2 2
10 3 3
12 5 2
20 10 1
15 7 2
Se desea obtener la ecuación del plano de regresión que permita hacer pronósticos lascomo ventas del producto a partir de la extroversión y la la bondad de dicho modelo. fluidez verbalen, así Lleve a cabo el análisis de regresión completo (incluyendo pruebas de significación y comprobación de supuestos) y comente el resultado obtenido.
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
82 2.
Un equipo de especialistas en recursos humanos desea estudiar la relación entre la satisfacción laboral (X) y el rendimiento en el trabajo(Y). Para ello selecciona una muestra de 200 sujetos y les evalúa en cinco facetas de la satisfacción y en el rendimiento:
X1 = Satisfacción con el sueldo. X2 = Satisfacción con las condiciones ambientales en que se trabaja. con lalasautonomía oportunidades de promoción X34 = Satisfacción con para tomar decisiones propias. X5 = Satisfacción con el trato que se mantiene con el superior. Y = Rendimiento en el trabajo. Se desea averiguar qué facetas de la satisfacción tienen mayor relación con el rendimiento. Los estadísticos descriptivos y correlaciones entre las variables son:
R
X1 X2 X 3 X4 X5 Y
x' 40
1 .00 0 .34 1 .00 0 .13 0 . 15 1 .00 0 .29 0 .20 0 .32 1 . 00 0 .24 0 . 15 0 . 27 0 .31 1 .00 0 .86 0 .18 0 .23 0 .31 0 .49 1 . 00 70 60 50 55 ; s'x 10 20 10 20 15 ; y 75 ; s y 20
Realice el análisis de regresión utilizando el lenguaje MATRIX.
Capítulo 4. Análisis de Componentes Principales 1. Introducción Según Flury (1988), el análisis de componentes principales (ACP) puede verse desde tres puntos de vista: (1) Como un método para transformar un conjunto de variables correlacionadas en otro de variables independientes; (2) Como un método para encontrar combinaciones lineales de variables con una variabilidad relativamente grande o pequeña; (3) como una herramienta para reducir los datos srcinales. El uso más común del ACP es una mezcla de los puntos (1) y (2). Es decir, el ACP tiene como objetivo transformar un conjunto de p variables correlacionadas (X1, X2, ..., Xp) en otro conjunto de p variables (Y1, Y2, ..., Yp) que son independientes y reproducen de forma exacta la estructura srcinal de la matriz de covarianzas. Para ello se utilizan los autovalores y autovectores de la matriz S (o de la matriz R). Las variables resultantes, denominadas componentes, son combinaciones lineales de las X1, X2, ..., Xp y se definen de forma jerárquica, de forma que el primer componente es el que explica la mayor varianza y el último la menor. El ACP tiene sus orígenes en Bravais (1846) y su forma de rotar una elipse a los ejes principales para obtener la independencia en una distribución normal multivariante; y más tarde en Pearson (1901) que lo concebía desde el punto de avista (3); y esen elFrisch (1933) ymultivariantes. Girschick (1936). El ACP menudo paso (1929), previo Hotelling a otros análisis Por ejemplo, el análisis de regresión múltiple, donde se requiere que las variables predictoras (X1, X2, ..., Xp) sean independientes (ausencia de colinealidad). Existen diversos manuales que tratan de forma monográfica el ACP. Pueden consultarse por ejemplo los de Dunteman (1989), Flury (1988) y Jackson (1991). El ACP es una técnica de análisis multivariante que no requiere asumir normalidad, aunque, si puede asumirse, la interpretación de los componentes es más sencilla y se pueden llevar a cabo pruebas de significación. En esencia, el ACP depende de la relación entre las variables X1, X2, ..., Xp, pues los componentes se calculan a través de los autovalores y los autovectores normalizados de la matriz S o R; donde los autovectores determinan la dirección de la máxima variabilidad de los componentes y los autovalores su varianza. Resumiendo, en el ACP: 1. No se establece ningún requisito sobre la distribución de las variables X1, X2, ..., Xp.
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
84
2. Los componentes Y1, Y2, ..., Yp son combinaciones lineales de las variables X1, X2, ..., Xp por lo que hay el mismo número de componentes que de variables. 3. Var(Yi) = a'i S ai tal que: Var(Y1) Var(Y2) ... Var(Yp). 4. Cov(Yi, Yi’) = 0. Es decir, no existen restricciones de linealidad entre los componentes. Por tanto, la matriz S (y por tanto R) tienen que ser definidas positivas y r(S) = r(R) = p.
2. Cálculo de los componentes Dado que X es la matriz de p variables correlacionadas medidas en n sujetos con media y matriz de covarianzas S (con autovalores 1, 2, …, p y autovectores normalizados a1, a2, …, ap), los p componentes se calculan mediante: Y=XA
(4.1)
Donde A es la matriz de transformación que contiene los autovectores normalizados de la matriz S (o R). Puesto que la matriz A es ortogonal: Y'Y = (XA)'(XA) = A'A X' X = X'X. La ecuación (4.1) se expresa en términos matriciales mediante:
YY11 YY12 22 21 Y n1 Y n 2
1p YY2 p Y np
XX 11 21 X n1
12 XX 22
X n2
1p 11 XX 2 p aa 21 X np a p 1
12 aa 22
a p2
1p aa 2 p a pp
De donde se obtienen los componentes:
Yi1 Xa 1 X i1 a11 X i 2 a 21 ... X ip a p 1 Yi 2 Xa 2 X i1 a12 X i 2 a 22 ... X ip a p 2
Yip Xa p X i1 a1 p X i 2 a 2 p ... X ip a pp Cada uno de los componentes es una combinación lineal Yi = X ai. Por tanto, se vio en (1.17), cada componente tiene E(Yi) = ' ai ; Var(Yi) = a 'i S acomo i. El ACP establece que en la primera combinación lineal ( Y1) se maximiza la Var(X ai) dado que a'i ai = 1. Según lo visto en (1.15), la varianza del primer componente es: Var(Y1) = a'1 S a1 = a'1 1 a1 = 1. A continuación se describe el procedimiento de cálculo de los componentes a partir de la matriz S y de la matriz R.
AN LISIS DE COMPONENTES PRINCIPALES
85
2.1. Cálculo a partir de la matriz S
Los componentes Yi se obtienen en los siguientes pasos: 1) Cálculo de la matriz S, de covarianzas: S = X'X / (n – 1). 2) Cálculo de la matriz , de autovalores de S: S – I = 0 (contiene los i). 3) Cálculo de la matriz A, de autovectores: (S – i I) ai = 0 (contiene los autovectores normalizados de S, tales que el primero corresponde a la mayor raíz latente de S). 4) Cálculo de la matriz F, de saturaciones: F = A 1/2. En puntuaciones típicas, las saturaciones son las correlaciones entre cada Xi y cada Yi, y se calculan mediante: F = R xy = D-1/2A 1/2. Por tanto, las saturaciones en puntuaciones típicas han de interpretarse pues su magnitud refleja la importancia de cada variable en cada componente, sin tener en cuenta las restantes variables. 5) Cálculo de la matriz de puntuaciones de los sujetos en los componentes: Y = X A. 6) Cálculo de la varianza de cada componente: Ya se ha visto que para cada componente Var(Yi) es una forma cuadrática de S: Var(Yi) = Y'Y / n –1 = (X ai)'(X ai)/ n –1 = a'i X'X ai / n –1 = a'i S ai = i. 7) Cálculo de la proporción de varianza explicada por cada componente: ci = i / i. De esta forma Var(Xi) = tr(S) = i = tr( ) = Var(Yi). 2.2. Cálculo a partir de la matriz R
Los componentes Yi se obtienen en puntuaciones típicas en los siguientes pasos: 1) Cálculo de la matriz R, de correlaciones: R = z'z / (n –1) = D-1/2 S D-1/2. 2) Cálculo de la matriz , de autovalores de R: R – I = 0. 3) Cálculo de la matriz A, de autovectores: (R – I) a = 0. 4) Cálculo de la matriz F, de saturaciones: F R zxz y A
1/ 2
.
5) Cálculo de matriz de puntuaciones típicas en los componentes: Zy = Zx -1/2 A
6) Cálculo de la varianza de cada componente:
Var(z yi )
1 1 1 z' y z y A' z' z A A' RA (z x A)'(z x A) 1 1 n n n 1 x x
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
86
Donde Var(zyi)= a'i R ai = i (forma cuadrática de R) De esta forma, Var(zi) = tr(R) = i = tr() = p.
Cov ( z x , z y )
1 1 z 'x z y z ' z A RA AA ' RA A n 1 n 1 x x
7) Cálculo de la proporción de varianza explicada por cada componente: ci = i / p. Los resultados ambos laprocedimientos solo coinciden cuando las variables X1, X2, ..., de Xp tienen misma varianza, aunque los componentes obtenidos son diferentes. El ACP también tiene pruebas de significación sobre el valor de los autovalores y los autovectores de y sus intervalos de confianza. Aquí no se exponen dichas pruebas pues su complejidad excede a los objetivos de esta monografía. Para una buena revisión véase Anderson (1984, pág. 468-477). 2.3. Ejemplo
Las puntuaciones de 30 sujetos evaluados en las variables razonamiento numérico (X1) y razonamiento espacial (X2) han dado lugar a la siguiente matriz de covarianzas: 13 12 S 12 12 Cálculo de los componentes a partir de la matriz S: 1) Matriz de autovalores: 13 - 12 S - I 2 25 12 = 0 12 12 - 1
24.5 2 0.5 ;
i
24.5 + 0.5 = 25
0 24 . 5 0 . 5 0 2) Matriz de autovectores: ( S - 1 I ) a 1 13 - 24.5 12
12 a 11 0 12 - 24.5 a 21 0
11 . 5 a 11 12 a 21 0 a 11 1 .000 12 a 11 12 .5 a 21 0 a 21 0 .958
AN LISIS DE COMPONENTES PRINCIPALES
87
12 a 12 0 13 - 0.5 (S - 2 I ) a 2 ; 12 12 - 0.5 a 22 0
12 .5 a12 12 a 22 0 a 22 1 .000 12 a12 11 .5 a 22 0 a12 0 .958 Normalizando de modo que a'1 a1 = a'2 a2 = 1:
12 0.958 2 1.385 0.958/1.38 5 0.722 0.692 1/1.385 A= 0.958/1.38 5 1/1.385 0.692 0.722 Por tanto: Y1 = X a1 = 0.722 X1 + 0.692 X2 Y2 = X a2 = -0.692 X1 + 0.722 X2 3) Matriz de saturaciones: F
A
1/2
0.722 0.692 24.5 0.692 0.722 0
0 3.573 - 0.484 0.5 3.427 0.505
En típicas: 1/2
FD
1/2
A
1/ 13 0 3.573 0.484 0.9884 -0.1353 0 1/ 12 3.427 0.505 0.9859 0.1469
4) Puntuaciones de los sujetos en los componentes: A continuación se presenta el cálculo de las puntuaciones en los componentes para los tres primeros sujetos: 3 2 3 .54 0 .63 0 .722 0 .692 2 .10 0 .75 Y XA 1 2 4 4 0 .692 0.722 5 .64 0 .12 5) Varianza explicada por cada componente: F
3.573 -0.484 3.427 0.505 ;
3.573 2 3.427 2 24.50 1 Var (Y1 ) -0.484 2 0.505 2 0.50 Var (Y ) 2
7) Proporción de varianza explicada por cada componente:
c1
1 1
2
24.5 0.98; 24.5 0.5
c2
1 1
2
0.5 0.02 24.5 0.5
2
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
88
Cálculo de los componentes a partir de la matriz R: 1) Matriz de correlaciones: R D1/2SD1/2
1 13 0 13 12 1 13 0 1 0.96 12 12 0 1 12 0.96 1 0 1 12
2) Matriz de autovalores: R I
1
10.96 10.96 (1 ) 2 0.962 0; 1 10..96 04 ; 2
1.96
2
0.04 ;
i
1.096 0.004
1.96 + 0.04 = 2 tr ( R ) p.
3) Matriz de autovectores:
0 .96 a 11 0 1 1 .96 ( R 1 I )a 1 0 . 96 1 1 .96 a 21 0
0 . 96 a 11 0 . 96 a 21 0 a 11 1 0 . 96 a 11 0 . 96 a 21 0 a 21 1 1 0.04 0.96 a12 0 ( R 2 I )a 2 0.96 1 0.04 a 22 0 0 . 96 a 12 0 . 96 a 22 0 a 12 1 0 . 96 a 12 0 . 96 a 22 0 a 22 1 A
1 1 2 0 .707 0.707 2 1 0 .707 0.707 1 2 2
4) Matriz de saturaciones: F R z xz y
A
1/ 2
0.707 0.707 1.96 0.707 0.707 0 2
0 0.9898 0.1414 0.04 0.9898 0.1414
2
Donde: 0 . 9898 2 0 . 9898 2 1 . 96 0 . 1414 0 . 1414 0 . 04
1 2
5) Matriz de puntuaciones típicas en los componentes: Las puntuaciones típicas de los tres primeros sujetos en las variables son:
AN LISIS DE COMPONENTES PRINCIPALES
zx
1/2
XD
89
3/ 13 2 / 12 1/ 13 2 / 12 4 / 13 4 / 12
Y las puntuaciones típicas en los componentes: -1/ 2
z y zxA
3 13 2 12 0.712 0.900 0.707 0.707 1/ 1.96 0 13 42 12 12 0.707 0.707 0 1/ 0.04 10.145 .431 01.170 .060 41 13
6) Varianza explicada por cada componente:
0.707 0.707 1 0.96 0.707 0.707 1.96 0 Var(z yi ) A' RA 0.707 0.707 0.96 1 0.707 0.707 0 0.04 Donde:
0.707 0.707 1.96 0 1.39 0.03 Cov ( z x , z y ) A 0.707 0.707 0 0.04 1.39 0.03
Cov ( z y1 , z y 2 )
1
0 .712
29
0 .900 0 .431 1 .145 1 .060 0 0 .170
7) Proporción de varianza explicada: c1
1 . 96 0.04 0 .98 ; c2 0.02 . 2 2
Este ejemplo demuestra que los resultados obtenidos a partir de la matriz S son distintos de los derivados de la matriz R. La siguiente tabla muestra las
diferencias entre ambos análisis: Resumen de los resultados del ACP del ejemplo 2.3. A partir de S A partir de R Pesos (A) Saturaciones (F) Pesos (A) Saturaciones (F) Variable a1 a2 zy1 zy2 a1 a2 zy1 zy2 X1 0.722 -0.692 0.9884 -0.1353 0.707 -0.707 0.9898 -0.1414 X2 0.692 0.722 0.9859 0.1469 0.707 0.707 0.9898 0.1414 24.5 0.5 1.96 0.04 i % varianza 98% 2% 98% 2%
90
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
Como se observa, las saturaciones coinciden en puntuaciones típicas tanto en la solución a partir de S como en la de R. La proporción de varianza explicada por cada componente también es la misma. Sin embargo, los autovalores no coinciden, pues indican varianzas de distintos tipos de puntuaciones. Asimismo, las puntuaciones en los componentes para los tres primeros sujetos fueron distintas aunque proporcionales (razón 3.5). La solución obtenida a partir de la matriz R es más sencilla de interpretar, sobre todo cuando las variables están medidas en tipos de escalas muy diferentes.
3. Geometría de los componentes Geométricamente, las combinaciones lineales definidas en Y = X A representan un nuevo sistema de coordenadas que se obtiene rotando o girando de forma ortogonal el sistema de los ejes X1, X2, ..., Xp a través del srcen. De esta forma se obtienen los nuevos ejes Y1, Y2, ..., Yp. La rotación es ortogonal porque A es una matriz ortogonal, que en el caso de dos componentes puede expresarse mediante:
cos sen sen cos
A
A La de matriz losprimer ejes X1componente , X2, ..., Xp a reúna través el delmáximo srcen undeángulo de grados modo rota que el la varianza contenida en los datos y el segundo la varianza restante.
En el ejemplo del apartado 2.3. se obtuvo la matriz de transformación ortogonal: A
0.69
Donde:
0.72 0.69 0.72
cos 0 . 72 44º sen 0 . 69
A ha rotado los ejes X1 y X2 a través del srcen un Pordetanto, la matriz ángulo 44 grados, de modo que el primer componente explique el máximo de la varianza contenida en los datos y el otro la varianza restante. Este efecto puede observarse en la figura 4.1. que es una representación gráfica de la rotación con los datos de los 30 sujetos dados en puntuaciones diferenciales.
AN LISIS DE COMPONENTES PRINCIPALES
91
x2
y1
44º
x1
y2 Figura 4.1. Representación gráfica del ACPdel ejemplo 2.3.
Como se observa en la figura 4.1., los ejes se han girado un ángulo de 44º de modo que el componentey1 tiene una gran variabilidad y el componente y2 una variabilidad muy pequeña. Si el propósito de este análisis fuera la reducción de datos, podría afirmarse que las variables x1 y x2 pueden resumirse en el componentey1. Asimismo, la figura 4.1.lasmuestra una elipseDe centrada en con el srcen que contiene dentrotodos de sí los el 80% de observaciones. acuerdo la normal bivariante, puntos de la elipse tienen igual densidad (véase figura 2.4. de capítulo 2). Por tanto, este tipo de diagramas también pueden informar sobre el cumplimiento del supuesto de normalidad.
4. El análisis de componentes principales y el lenguaje MATRIX del SPSS En la mayoría de los paquetes estadísticos el ACP aparece en el mismo menú que el análisis factorial. Este es el caso del programa SPSS. Cuando se dispone de los datos srcinales sobre las variables observadas, se introducen en el editor de datos del SPSS y se utiliza el procedimiento Análisis Factorial ‘método de extracción componentes principales’ para estimar los componentes del modelo (para más detalle véase Pardo y Ruiz, 2002). Cuando no se dispone de los datos srcinales y sólo se conoce la matriz o la matriz S, el ACP se puede llevar a cabo mediante el lenguaje MATRIX del SPSS. La sintaxis para llevar a cabo el ACP con los datos del ejemplo del apartado 2.3. a partir de la matriz R se muestra en el cuadro 4.1. R
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
92
Matrix data var x1 x2 /FORMAT lower diag/cont CORR /n=30. BEGIN DATA. 1.00 .96 1.00 END DATA. FACTOR /MATRIX=in(COR=*) /MISSING LISTWISE /ANALYSIS x1 x2 /PRINT INITIAL EXTRACTION /CRITERIA FACTORS(2) ITERATE(25) /EXTRACTION PC /METHOD=CORRELATION .
Cuadro 4.1. Sintaxis del lenguaje MATRIX para el ejemplo 2.3 a partir de la matriz R
Al ejecutar esta sintaxis, los resultados se muestran tanto en el Editor de datos (ver figura 4.2.) como en el visor de resultados del SPSS.
Figura 4.2. Fichero de datos que genera el SPSS con la sintaxis del cuadro 4.1.
En el visor de resultados los resultados obtenidos son los siguientes: Comunalidades
X1
Inicial 1.000
Extracción 1.000
X2
1.000
1.000
Método de extracción: Análisis de Componentes principales. Varianza total explicada
Autovalores iniciales Componente 1
Total 1.960
% de la varianza 98.000
2
4.000E-02
2.000
Sumas de las saturaciones al cuadrado de la extracción
%a cumulado 98.000
Total 1.960
% de la varianza 98.000
% acumulado 98.000
100.000
4.000E-02
2.000
100.000
Método de extracción: Análisis de Componentes principales.
AN LISIS DE COMPONENTES PRINCIPALES
93
Matriz de componentes a Componente X1
1 .990
2 -.141
X2
.990
.141
Método de extracción: Análisis de componentes principales. a. 2 componentes extraídos
La tabla ‘Comunalidades’ muestra la varianza inicial (la de las Xi) y la varianza que queda explicada de éstas por los componentes extraídos (los Yi), que es la misma puesto que el ACP reproduce de forma exacta la estructura srcinal de la matriz de correlaciones. La tabla ‘ Varianza total explicada’ indica que se han extraído dos componentes: el primero explica el 98% de la varianza (donde 1 = 1.96) y el segundo el 2% restante (2 = 0.04). Por tanto, el primer componente es el que contiene la mayor información. La tabla ‘Matriz de componentes’ muestra la matriz de saturaciones ( F). Es decir, las correlaciones entre cada variable y cada componente, que coinciden con las calculadas más arriba mediante álgebra de matrices. Para llevar al cabo el ACP a partir de la matriz S, se utiliza la sintaxis del cuadro 4.2. Como se observa, el cambio radica en que se introduce la matriz S en lugar de la matriz R y se indica el comando COVARIANCE en /MATRIX y /METHOD. Matrix data var x1 x2 /FORMAT lower diag/cont COVARIANCE /n=30. BEGIN DATA. 13 12 12 END DATA. FACTOR /MATRIX=in(COVARIANCE=*) /MISSING LISTWISE /ANALYSIS x1 x2 /PRINT INITIAL EXTRACTION /CRITERIA FACTORS(2) ITERATE(25) /EXTRACTION PC /METHOD=COVARIANCE .
Cuadro 4.2. Sintaxis del lenguaje MATRIX para el ejemplo 2.3 a partir de la matriz S
Los resultados que ofrece el SPSS al ejecutar esta sintaxis incluyen los autovalores y la matriz F obtenidos tanto a partir de S (solución Bruta) como a partir de R (solución Reescalada):
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
94
Comunalidades Bruta
Reescalada
X1
Inicial 13.000
Extracción 13.000
Inicial 1.000
Extracción 1.000
X2
12.000
12.000
1.000
1.000
Método de extracción: Análisis de Componentes principales.
Varianza total explicada Sumas de las saturaciones al cuadrado de la extracción
a
Autovalores iniciales
Bruta
Componente Total 1 24.510 2 .490
Reescalada 1
% de la varianza 98.042
% acumulado 98.042
Total 24.510
% de la varianza 98.042
% acumulado 98.042 100.000
1.958
100.000
.490
1.958
24.510
98.042
98.042
1.961
98.035
98.035
.490
1.958
100.000
3.9E-02
1.965
100.000
2
Método de extracción: Análisis de Componentes principales. a. Al analizar una matriz de covarianza, los autovalores iniciales son los mismos en la solución bruta y en la reescalada.
Matriz de componentes a Bruta Componente
Reescalada Componente
X1
1 3.573
2 -.484
1 .991
2 -.134
X2
3.427
.505
.989
.146
Método de extracción: Análisis de componentes principales. a. 2 componentes extraídos
AN LISIS DE COMPONENTES PRINCIPALES
95
5. Ejercicios 1.
Se ha evaluado a 9 empleados de una empresa su grado de perturbaciones somáticas (X1) y su nivel de estrés (X2) ante una situación de hablar en público con el fin de cubrir dos vacantes en el área de formación del departamento de recursos humanos. Los resultados obtenidos en ambas pruebas en puntuaciones diferenciales han sido los siguientes: Sujeto: x1: x2:
1 -8 -1
2 6 10
3 0 0
4 -2 -10
5 8 1
6 0 3
7 -6 -6
8 0 -3
9 2 6
Obténgase dos nuevas variables, cada una combinación lineal de las dos variables evaluadas, que sean independientes. Realice para ello un ACP tanto a partir de la matriz S como de la matriz R. Comente los resultados y represente gráficamente los ejes srcinales y los nuevos ejes de forma similar a la figura 4.1. 2.
El departamento de recursos humanos de una empresa está investigando las actitudes de los empleados hacia su organización. Para ello ha administrado un test a una muestra de 200 empleados extraídos al azar. El test incluye preguntas sobre la actitud hacia diez aspectos de la organización:
X1: Tener un sueldo competitivo X2: Tener un puesto de trabajo estable X3: Tener claro lo que se espera de mí X4: Poder tomar decisiones propias X5: Poder aportar y poner en práctica ideas X6: Poder planificar el trabajo X7: Cumplir con objetivos X8: Tener oportunidades claras de promoción X9: Recibir reconocimiento público por el trabajo X10: Sentirse importante en el grupo de trabajo Los miembros del departamento de recursos humanos necesitan que todas las variables sean independientes. Para ello, han llevado a cabo un ACP a partir de la matriz R. ¿Podría decirse que los resultados obtenidos apoyan su propósito?
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
96
Para resolver este ejercicio se necesita utilizar el lenguaje MATRIX del SPSS y disponer de la matriz de correlaciones entre las variables, que se presenta a continuación:
X1 X2 X3
1.00 0.54 0.43 X 4 0.59 X 5 0.24 R X 6 0.26 X 7 0.20 X 8 0.12 X 9 0.11 X 10 0.25
1.00 0.56 1.00 0.50 0.25 0.39 0.34 0.39 0.36 0.53
0.53 0.47 0.44 0.24 0.18 0.26 0.39
1.00 0.32 1.00 0.49 0.59 0.30 0.05 0.16 0.05 0.19 0.38 0.28 0.27
1.00 0.24 0.15 0.48 0.50
1.00 0.60 1.00 0.16 0.15 1.00 0.35 0.29 0.70 1.00
Capítulo 5: Análisis Factorial 1. Introducción El análisis factorial (AF) es una técnica que tiene como objetivo transformar un conjunto de p variables observadas X1, X2, ..., Xp que están relacionadas en otro conjunto de q factores f1, f2, ..., fq que las resuman. Se pretende explicar e interpretar la covariación existente entre las variables en función de los factores que subyacen a dicha covarianza. El ACP y el AF a menudo se confunden. La diferencia básica entre ambos es que en el ACP no se asume ningún modelo estadístico (Kendall, 1980) y el objetivo es explicar la varianza total de las variables mientras que el AF necesita asumir diferentes supuestos pues se basa en un modelo estadístico y el objetivo que se pretende es explicar la estructura de covarianza de las variables observadas. Asimismo, el AF utiliza pruebas de bondad de ajuste para valorar el grado en que el modelo estimado reproduce los datos observados (para más detalles sobre las diferencias entre el AF y el ACP véase Tatsuoka y Lohnes, 1988). El AF ha sido especialmente utilizado en psicología y otras ciencias sociales. Sin embargo, su uso ha provocado cierta controversia y algunos autores incluso lo desaconsejan (véase Reyment, Balckith y Campbell, 1984 para un revisión sobre este tema). Pese a esta controversia, el AF se sigue empleando porque resulta útil para reducir la información relativa a un conjunto inicial de variables y definir constructos. Existe un gran número de manuales sobre análisis factorial. Entre otros, el clásico de Mulaik (1972) y los de Basilevsky (1994) y Lewis-Beck (1994). En castellano, puede consultarse el de Ferrando (1993) y el de García, Gil y Rodríguez (2000). El modelo factorial general puede escribirse (en puntuaciones diferenciales) mediante: X1 = 11 f1 + 12 f2 + … + 1q fq + 1 X.2 = 21 f1 + 22 f2 + … + 2q fq + 2 .. Xp = p1 f1 + p2 f2 + … + pq fq + p (5.1) En notación matricial: X = f + (5.2) Donde: X = [X1, X2, ..., Xp] es el vector de p variables observadas con media 0 y matriz de covarianzas . f = [f1, f2, ..., fq] es un vector de q factores con media 0 y matriz de covarianzas I.
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
98
es la matriz de orden p x q que contiene los j o saturaciones de las variables en los factores (también denominada matriz de configuración). = [1, 2, ..., p] es un vector de errores aleatorios con media 0 y matriz de covarianzas .
Por tanto, las variables observadas se expresan en términos de las variables f1, f2, ..., fq, 1, 2, ..., p que son no observadas (o latentes). Esta es una de las principales características que distinguen al modelo factorial del modelo de regresión definido en (3.2), donde las variables independientes son observadas. El AF, a diferencia del ACP, requiere el cumplimiento de supuestos sobre el modelo: 1. Puesto que el objetivo es explicar la estructura de covarianza de las variables observadas, se asume que E( X) = 0, que r( ) = p, y que E(f) = E( ) = 0. 2. La varianza de los factores es 1; no así la de los errores, denominada i. 3. Los errores son independientes entre sí y de los factores: 1 0 Cov( , f) = 0
0
p
4. Los factores son independientes aunque pueden estar correlacionados tras la rotación (ver apartado 5.1.). 5. Aunque no es imprescindible, suele asumirse que tanto los factores como los errores siguen una distribución normal multivariante. Esto implica que X también es normal multivariante. Estos supuestos y las relaciones planteadas en la ecuación (5.2) constituyen el modelo factorial general. Los parámetros del modelo son las saturaciones y las varianzas error. En el AF se pretende encontrar los factores que expliquen la varianza que es común a las variables. Dado que los factores son independientes y con varianza 1, tomando la expresión (5.2), la varianza de cualquiera de las variables es:
Var ( X i ) i21 i22 ... iq2 Var ( i ) Por tanto:
Var ( X i )
q
i 1
2 ij
i
(5.3)
AN LISIS FACTORIAL
99
Si en lugar de trabajar a partir de la matriz de covarianzas se trabaja a partir de la matriz de correlaciones, como ocurre en la práctica, se utilizan puntuaciones típicas y la expresión (5.3) queda como:
Var ( z i ) 1
q
2 ij
i
i 1
Por tanto, la varianza de una variable observada puede descomponerse en dos partes: (1) 1) hi2 : la varianza que es común con otras variables, llamada comunalidad, donde:
h i2
q
2 ij
'i i es la suma de cuadrados de las filas de la matriz
.
i 1
2) i: la varianza propia (de cada variable) y la error, llamada unicidad, donde: i
1 h i2
De la ecuación (5.2) también se deduce que: q
Cov ( X i , X i ' )
ij i ' j
j 1
Según esto, la matriz de covarianzas de X puede expresarse mediante: = E(X'X) = E[( f + e)'( f + e)] = E[(f ' ' + e') ( f + e)] = = ' E(f f ') + ' E(f 'e) + E(e' f) + E(e'e) = ' + (5.4) En el caso de un modelo con un factor: 1 1 0 ' 2 1 2 p p 0 12
12 22 2 1 p 1 p 2
1 p
1 0 0 2 p 2 2 0 0 p
0
2
0
0 0 p
0 1 12 0 2 1 22 2 12
p
p 1
p 2
2 p 2 1 p
p p
La expresión (5.4) es de vital importancia para el AF pues demuestra que los factores explican los términos que están fuera de la diagonal principal de (1)
Nótese que en el ACP no se hace distinción entre parte común y residual, pues se reproduce la varianza total de las variables que intervienen en el análisis.
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
100
(las covarianzas) de forma exacta porque es diagonal. Asimismo, establece que el cálculo de las saturaciones factoriales es equivalente a la factorización de la matriz de covarianzas de X, con la condición de que los elementos diagonales de no sean negativos. El análisis factorial también puede llevarse a cabo a partir de la matriz de correlaciones donde: = En este caso
'+
' es la matriz reducida R*: h2 1 r * R 21 r p1
r12 h22
rp 2
r1 p r2 p
h 2p
'
y contiene las comunalidades hi2 en su diagonal principal. Ejemplo 1: Modelo de un factor Se han medido tres variables: X1, X2 y X3 en una muestra de 200 sujetos. Se desea llevar a cabo un AF de un factor a partir de la matriz de correlaciones: R
0 .83 0 .78 1 0 .83 1 0 .67 0 .78 0 .67 1
Dado que p = 3 y q = 1, según la expresión (5.1):
X 1 = 1 f1 + 1 X 2 = 2 f1 + 2 X 3 = 3 f1 + 3 Puesto que la estructura de la matriz R implica que = ' + : 0 1 1 0 2 1 2 3 0 2 0 R ' 12 1 2 1 3
3 1 2 22 2 3
1 3
1 2 3 0 2 3 0
0 2
0
0 3 0 1 2 12 1 2 2 2 1 2 3 1 3 2 3 0 0
2 3 23 3 1 3
AN LISIS FACTORIAL
101
Por tanto, hay seis ecuaciones y seis incógnitas: 1 12 1 0 . 83 1 2 0 . 78 1 3 1 22 2 0 . 67 2 3 2
1 3 3 El par de ecuaciones 0.78 13 ; 0 . 67 2 3 implica que: 2 0.67 / 0,781 . Sustituyendo en la ecuación 0 . 83 1 2 se llega a: 12
0.83 0.78 /0.67 0.966;
1
0 . 983
Del mismo modo: 22 23
/0.78 0.713; 0.83 0.67 /0.83 0.630; 0.78 0.67
2 3
0 . 844 0 . 794
De donde se deduce que: 1
0 . 034 ;
2
0 .287 ;
3
0 .370
Por tanto, matriz reducida (con las comunalidades en la diagonal principal) es la la siguiente: R
*
0.983 ' 0 .844 0.983 0.844 0 .794 0 .794
0.966 0 .830 0 .780 0.830 0.713 0 .670 0.780 0 .670 0 .630
Y la matriz con las unicidades:
0 0.034 0 0 0.287 0 0 0 0.370 Por lo que la matriz de correlaciones queda reproducida del siguiente modo: R
0 1 0.83 0.78 0.966 0.830 0.780 0.034 0 ' 0.830 0.713 0.670 0 0.287 0 0.83 1 0.67 0 0.370 0.78 0.67 1 0.780 0.670 0.630 0
En este ejemplo la matriz de correlaciones reproducida por el modelo es idéntica a la matriz de correlaciones de la muestra por lo que el ajuste del
102
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
modelo es perfecto. Esto no es cierto en general pues la bondad de ajuste del modelo depende de la diferencia entre ambas matrices. En síntesis, el modelo factorial asume que las varianzas y covarianzas de X pueden reproducirse a partir de las pq saturaciones ij y de las p unicidades i. Cuando p = q, cualquier matriz se reproduce de forma exacta mediante ' pues la matriz es la matriz nula 0. Cuando q < p, el modelo factorial es más útil puesto que proporciona una explicación de la covariación en X más
parsimoniosa.
2. Métodos de extracción de factores Los diferentes métodos de extracción de factores intentan estimar los parámetros del modelo (5.2). El objetivo es encontrar el modelo factorial que represente los datos a partir del mínimo número de factores y verifique la estructura de covarianza especificada en la ecuación (5.4). Aquí se exponen cuatro de los métodos más utilizados. La elección de un método u otro depende del objetivo del investigador, del cumplimiento de los supuestos del modelo y de la utilización o no de estadísticos de bondad de ajuste. Los métodos se describen con el cálculo a partir de la matriz R, aunque el procedimiento es apropiado también a partir de la matriz S. 2.1. Método de componentes principales
Este método se utiliza para formar combinaciones lineales independientes de las variables observadas de modo que la primera (el primer factor) obtenga la varianza máxima y que p = q y por tanto: i = 0 para todo i. El método CP, a diferencia de los restantes, utiliza la matriz R para calcular la matriz de saturaciones y obtener la solución factorial inicial. Al haber tantos componentes como variables, los componentes explican toda la varianza. Dado que este método es una simple transformación directa de las variables observadas, no se realiza ninguna estimación de las comunalidades ni se utiliza ningún criterio estadístico para determinar el número de factores. El procedimiento es similar al visto en el ACP (ver apartado 4.2.): 1) Calcular la matriz de correlaciones: R = ' + = '. 2) Calcular la matriz de autovalores : R – j I = 0 (donde j es un R). 3) autovalor Calcular ladematriz de autovectores A: (R – j I) aj = 0 (donde aj es u autovector de R). 4) Calcular la matriz de saturaciones: = A 1/2 (o matriz de configuración). 5) Calcular las puntuaciones factoriales: Zy = Zx (cálculo directo, sin estimación).
AN LISIS FACTORIAL
103
6) Calcular la varianza y la proporción de varianza de cada factor extraído p Var ( f ) 2 ' . Es la suma de cuadrados de las columnas de la j
ij
j
j
j
matriz . La proporción de varianza explicada por cada factor es: j / p. Considérese el método de extracción CP para los datos del ejemplo 1. La matriz de autovalores es: 0 0 2 .522 0 .334 0 . 0 0 0 .144 0 De donde se obtiene la matriz de saturaciones:
0 .951 0 .066 0 .910 0 .364 0 .888 0 .444
0 .301 0 .199 0 .118
De la matriz se deduce que cada una de las comunalidades es 1 y las unicidades son 0:
h12 0.951 2 ( 0.066 ) 2 ( 0.301) 2 1 ; 1 0 h 22 0 . 91 2 ( 0 . 364 ) 2 0 . 199 2 1 ; 2 0 3 0 h 32 0 . 888 2 0 . 444 2 0 . 118 2 1 ; La varianza del cada factor también puede deducirse de :
0 .951 2 0 .910 2 0 .888 2 2 .522 2 (0.066) 2 (0.364) 2 0.4442 0.334 1
3
( 0 .301 ) 2 0 .199 2 0 .118 2 0 .144
Por tanto, el modelo explica toda la varianza de las variables observadas y: R
0.951 0.066 0.301 0.951 0.910 0.888 1 0.83 0.78 ' 0.910 0.364 0.199 0.066 0.364 0.444 0.83 1 0.67 0.888 0.444 0.118 0.301 0.199 0.118 0.78 0.67 1
= 0. La solución CP extrae tantos factores como variables pero suele ser preferible obtener un modelo que explique la estructura de covarianza con pocos factores. Si los últimos autovalores son pequeños es posible emplear este método para q < p. Según se ha visto en el ejemplo 1, los autovalores 2 y
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
104
3 son muy pequeños (0.33 y 0.14). Si en lugar de tomar todos los factores sólo se considera el primero, la matriz de saturaciones es: 0.951 h12 0.9512 0.904; 1 0.096 0.910 . Donde h22 0.910 2 0.828; 2 0.172 y 1/p = 2.522/3 = 0.84 h 2 0.888 2 0.789; 3 0.211 0.888 3 En este caso, R = R
'+
y i = 1 – hi2 para todo i. Es decir:
0 1 0.83 0.78 0.966 0.830 0.780 0.034 0 ' 0.830 0.713 0.670 0 0.287 0 0.83 1 0.67 0 0.370 0.78 0.67 1 0.780 0.670 0.630 0
Por tanto, el modelo de un factor explica el 84% de la varianza total y las comunalidades (0.90, 0.83 y 0.79) indican que el modelo da cuenta de un amplio porcentaje de varianza explicada de cada variable. 2.2. Método de ejes principales
Este método es igual al CP pero utiliza la matriz R*, o matriz reducida, que es la matriz de correlaciones srcinal que sustituye los 1 de su diagonal principal por las estimaciones iniciales de las comunalidades. Al utilizar la *
R , se factoriales matriz analiza solamente la variabilidad las de variables. saturaciones resultantes se utilizancomún para entre estimar nuevo Las las * comunalidades y reemplazar las estimaciones iniciales en R .
En este caso el procedimiento es similar al del método CP: 1) Calcular la matriz reducida: Puesto que las unicidades i se eliminan de la diagonal principal, la matriz resultante es: R* = R – = '. 2) Existen diversos procedimientos para estimar las comunalidades, hi2. El más utilizado es la correlación múltiple entre la variable Xi y las p – 1 restantes variables. Es decir: h * i2 1 i* 1 1 . Donde rii son los
rii
-1
elementos diagonales de la matriz R . Este procedimiento tiene la ventaja 2 de que las h * i pueden obtenerse incluso cuando r(R) p. *
3) 4) 5) 6)
*
A 1/2 1/2 Calcular R – j I= 0; (R – j I) aj = 0; y R* = ' =lasAmatrices A' y= A. Donde A'. 1/2 Calcular la matriz factorial: = A . r Calcular la matriz reproducida: R = '+ Calcular la matriz residual (sin la diagonal principal): Re = R* – Rr = R* – '
AN LISIS FACTORIAL
105
7) Calcular la varianza y la proporción de varianza de cada factor extraído a partir de la matriz y el cociente j / p. Considérese ahora el método de extracción EP para los datos del ejemplo 1. Para obtener la matriz R*, primero hay que estimar las comunalidades iniciales, mediante: h *12 1 (1 / 4 .543 ) 0 .78 4.543 2.534 1.846 2 1 R 2.534 3.228 0.186 . Donde h * 2 1 (1 / 3 .228 ) 0 .69 h * 32 1 (1 / 2 .564 ) 0 . 61 1.846 0.186 2.564 Por tanto: R
*
0 .78 0 .83 0 .78 0 .83 0 .69 0 .67 0 .78 0 .67 0 .61
Una vez extraídos los autovalores y autovectores de la matriz R*, se obtiene la matriz de saturaciones: 0 . 982 A 1 / 2 0 . 845 0 . 794 Las estimaciones finales de las comunalidades son: h12 0.982 2 0.963 , h22 0.845 2 0.714 y h32 0.7942 0.630; y de las unicidades: 1 0.037 , 2 0.286 y 3 0.37 . La varianza del primer factor es: 1 0.982 2 0.845 2 0.794 2 2.522 ; y la proporción de varianza del primer factor: 1 / p = 2.522 / 3 = 0.84. Las matrices reproducida y residual son las siguientes: 0 . 9635 0 .8295 0 .7793 r R 0 . 8295 0 .7142 0 .6710 0 .7793 0 .6710 0 .6304 Re
0.0005
0.0007
0.0005 0.0010 0.0007 0.0010
Como se observa, al igual que con el método CP, el modelo de un factor explica el 84% de la varianza total. Sin embargo, las saturaciones y por tanto las comunalidades y unicidades toman valores distintos.
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
106
2.3. Método de máxima verosimilitud
El método MV consiste en encontrar la solución factorial para la cual la probabilidad de las correlaciones observadas sea máxima (Lawley & Maxwell, 1971). Para ello se asume que la muestra procede de una distribución normal multivariante. Este supuesto no es necesario para los anteriores métodos de estimación. Si f y son normales, entonces las variables X = f + también son normales. Como se ha visto en la sección 3.1. la función de verosimilitud es:
L ( , ) ( 2 ) (2 )
1 ( n 1) p 2
n 1 2
np 2
e
1 tr 2
n 2
e
1 tr 2
1
n
( X i X )( X i X )' n ( X )( X )' i 1
n ( X i X )( X i X )' i 1
1
(2 )
p 2
1 2
n (X ) 2
e
1
( X )'
Esta expresión depende de y . Para estimar la matriz de saturaciones se impone la siguiente condición: = '
-1
El procedimiento es similar a los anteriores, pero en este caso se j I= de soluciona por el polinomio 0; las quevariables. hace queEslasdecir: correlaciones se Rla1 –unicidad ponderen el inverso de R1 =
-1
R
-1
Las estimaciones ˆ y ˆ se obtienen maximizando la función de verosimilitud. Para ello se emplea un algoritmo iterativo que permite que R1 se reajuste en cada etapa de modo que el mayor peso se atribuye a las variables con mayor comunalidad. Este método proporciona la mejor estimación de la matriz Rr y genera una prueba de significación chi-cuadrado para valorar la bondad de ajuste del modelo (ver apartado 4). Para obtener las estimaciones por el método MV es necesario emplear un programa de ordenador. En el apartado 8 se muestra un ejemplo en el que se aplica el método de estimación de máxima verosimilitud a los datos del ejemplo del apartado 7 mediante el lenguaje MATRIX del SPSS. 2.4. Método de mínimos cuadrados generalizados
El método MCG también es un procedimiento iterativo. En este caso se minimiza la suma de los cuadrados de las diferencias entre las matrices de correlación observada y reproducida: (R – Rr)2. Las correlaciones se ponderan por el inverso de su unicidad, de manera que las variables que
AN LISIS FACTORIAL
107
tengan un valor de unicidad alto reciban un peso menor que aquellas que tengan un valor bajo de unicidad. Tanto este método como el método MV generan una prueba de bondad de ajuste chi-cuadrado. Los dos primeros métodos se caracterizan por maximizar la varianza explicada y los dos últimos por ser iterativos y ofrecer una prueba de significación estadística para valorar si el modelo factorial obtenido se ajusta adecuadamente a las correlaciones observadas.
3. Contrastes sobre la adecuación del análisis factorial Antes de llevar a cabo un análisis factorial es necesario estudiar si la matriz de correlaciones cumple las condiciones suficientes para ser factorizada. Una de ellas es que las variables estén relacionadas. La prueba de esfericidad de Bartlett contrasta si la matriz R es una matriz identidad (H 0: = I) mediante el estadístico:
X
2
K Ln Q
Donde K (n 1) 2 p 5 2q y Q 6 3
ˆ r 1 ˆ p
ˆr 1 ˆ p p q
p q
El estadístico X2 se distribuye según 2 con (p2 – p)/2 grados de libertad. Si el valor de X2 es significativo, tiene sentido o es adecuado realizar un análisis factorial. Si no lo es, debería cuestionarse su uso. También puede emplearse la medida de adecuación muestral de KaiserMeyer-Olkin que compara las correlaciones observadas con las correlaciones parciales entre las variables mediante el estadístico:
r r a 2 ij
KMO
i j 2 ij
i j
2 ij
i j
Donde rij es el coeficiente de correlación simple entre las variables xi y xj ysuma aij es de el coeficiente de correlación parcial entre esas mismasesvariables. la los cuadrados de las correlaciones parciales pequeñaSi en comparación con la de las correlaciones, el valor del índice KMO estará próximo a 1. Si los valores de KMO son pequeños, el uso del análisis factorial es cuestionable. Según Kaiser (1974), valores superiores a 0.80 son buenos, a 0.70 medios y por debajo de 0.50 inaceptables.
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
108
4. Reglas para la selección de factores Los criterios que se han utilizado tradicionalmente para decidir sobre el número de factores a retener en un análisis factorial exploratorio son que la proporción de varianza explicada por los factores sea al menos de 0.50 y que se cumpla la regla de Kaiser, según la cual se seleccionan solamente aquellos factores cuyos autovalores sean mayores o iguales que 1. También puede confeccionarse el gráfico de sedimentación, que incluye los p factores en el eje de abscisas posibleEnde valores de sus puede correspondientes autovalores en el yejeelderango ordenadas. el ejemplo inferior verse que, siguiendo la regla de Kaiser, solamente se seleccionarían dos de los siete posibles factores. Gráfico de sedimentación 2.5 2.0 r o l a v to u A
1.5 1.0 .5 0.0 1
2
3
4
5
6
7
Número de factor
Sin embargo, la regla de Kaiser apenas se utiliza hoy en día porque el hecho de que un factor explique poca varianza no significa que no esté presente en el modelo. Actualmente los criterios empleados para decidir sobre el número de factores son los contrastes de hipótesis sobre la bondad de ajuste del modelo y el análisis de los residuos. El modelo factorial no siempre reproduce de forma exacta la matriz de correlaciones observada. Para determinar si el ajuste entre la matriz srcinal y la reproducida es adecuado, se utiliza un contraste sobre la bondad de ajuste del modelo. La hipótesis nula plantea que la matriz de correlaciones en la población es igual que la matriz reproducida por el modelo (H0: = Rr). El estadístico de bondad de ajuste se calcula mediante: 1
X2 = N { lnRr lnR + tr( RR r ) p} Donde N es el tamaño de la muestra, Rr = ' + y p el número de variables observadas. El estadístico X2 se distribuye aproximadamente según 2 con 1/2 [(p – q)2 – (p + q)] grados de libertad. Si el valor del estadístico es significativo, los datos observados se desvían significativamente del modelo factorial. La prueba X2 es muy sensible al tamaño muestral, de forma que con muestras randes rácticamente cual uier modelo sería rechazado. Por esta
AN LISIS FACTORIAL
109
razón se han desarrollado otros índices que evalúan el ajuste relativo del modelo. Entre los más empleados están el índice RMSEA de Steiger y Lind (1980) y Steiger (1990) y el índice NNFI de Tucker y Lewis (1973). El primero consiste en la raíz cuadrada del cociente [(X2 – gl) / N] / gl. Según Browne y Cudeck (1992) valores inferiores a 0.05 indican un buen ajuste global, entre 0.05 y 0.08 un ajuste razonable, entre 0.08 y 0.10 un ajuste moderado y superiores a 0.10 un ajuste mediocre. También es conveniente realizar un análisis detallado de los residuos de los elementos que se encuentran fuera de la diagonal principal de la matriz Re. Según Harman (1980), existe un buen ajuste si los residuos no toman valores absolutos mayores que 0.05.
5. Rotación de factores La rotación de la solución factorial se realiza para mejorar la interpretación de los valores que presenta la matriz factorial ( ) tras la extracción. Esta idea la propuso Thurstone (1935) para solucionar el problema de la situación topológica de los factores. Su conocido “principio de estructura simple” plantea que se obtengan factores con algunas saturaciones muy altas y muchas saturaciones bajas y además que: 1) cada fila tenga al menos un 0; 2) si se han extraído q factores, que cada columna tenga al menos q ceros; 3) cada par de columnas tenga variables cuyas saturaciones sean altas en una pero no en otra; (4) si hay 4 ó más factores, cada par de columnas tenga muchas variables con saturaciones nulas en ambas; y (5) que para cada par de columnas haya pocas variables con saturaciones no nulas en ambas. Si en un análisis factorial se extraen dos factores mediante el método de máxima verosimilitud y se obtiene la matriz factorial:
0 .35 0.65 0.23 0.78 0.82 0.36 0.91 0.12 Lo ideal sería que la rotación permita llegar a la matriz:
R
0 0 1 1
1 1 0 0
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
110
Para alcanzar esta estructura (a la que se ha denominado R: matriz factorial rotada) hay que obtener una matriz de transformación ( T) que, tras multiplicarse por la matriz factorial no rotada ( T) sea capaz de generar otra matriz factorial ( R) que cumpla el principio de Thurstone, sin que cambie la varianza explicada por el modelo ni el valor de las comunalidades y unicidades. Para cumplir este objetivo hay dos procedimientos que se exponen a continuación. 5.1. Rotación ortogonal
Este procedimiento implica que los factores de la matriz se rotan todos en un mismo ángulo ( º). De este modo, los ejes factoriales forman un ángulo recto y por tanto los factores resultantes también son ortogonales. Para llevar a cabo esta rotación se aplica la transformación ortogonal: R
T
En el ejemplo anterior, como q = 2, la transformación sería: T
cos sen
cos
y T sen
sen si los ejes se rotan en el sentido del reloj cos sen si se rotan en sentido contrario al reloj co s
Dada la matriz de saturaciones del ejemplo anterior, las comunalidades son:
h12 0.35 2 0.65 2 0.55 ;
h22 0.23 2 0.78 2 0.66 ; h 0.82 ( 0.36 ) 0 .80 ; h42 0.912 ( 0.12) 2 0.84 . 2 3
2
2
Si los factores se rotan un ángulo de 20 grados en sentido del reloj se obtiene la matriz factorial rotada:
R
0.35 23 00..82 0.91
0.65 h12 0 .55 0.11 0.73 2 Donde: 342 00.89 .05 00.81 h22 0 .66 00.78 .36 00.937 .342 00..937 .06 h3 0 .80 h42 0 .84 0 . 90 0 . 20 0.12
Gráficamente:
AN LISIS FACTORIAL
111
F2
F*2
1
0,5 -
20º
0,5
1
F1 *
F1
-0,5 -1 -
Los cuatro puntos de la gráfica representan los pares de saturaciones factoriales correspondientes a cada variable. Los ejes se han rotado un ángulo de 20º. Visualmente se observa que las dos primeras variables saturan alto en el primer factor y las dos últimas en el segundo. La rotación produce una matriz de saturaciones que apoya la anterior interpretación de factores y no cambia las estimaciones de las comunalidades. Tampoco cambia la varianza explicada por el modelo, aunque sí la varianza explicada por cada uno de los factores. La siguiente tabla resume la varianza explicada por cada factor antes y después de la rotación: Solución sin rotar Solución rotada Factor Varianza Proporción de varianza Varianza Proporción de varianza 1.676 F1 0.419 1.617 0.405 1.175 F2 0.294 1.233 0.308 Total: 0.713 0.713 Existen diferentes métodos para llevar a cabo la rotación ortogonal. Por ejemplo, el método varimax propuesto por Kaiser (1958) que utiliza la matriz de transformación T que maximice la varianza explicada por cada factor. Es decir:
1 V p
q
j 1
p *ij4 i 1
p
i 1
*ij2
2
p
Los resultados ofrecidos mediante este procedimiento varían según el método de extracción de factores empleado. El método varimax se recomienda especialmente para el método de extracción MV que al imponer la condición de que ' -1 sea una matriz diagonal proporciona una solución factorial que hace difícil la interpretación de factores. La mayoría de paquetes estadísticos ofrecen la posibilidad de realizar una rotación varimax.
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
112
Hay otros métodos de rotación ortogonal. Por ejemplo, el método quartimax que minimiza el número de factores necesarios para explicar cada variable maximizando la suma de las saturaciones elevadas a la cuarta potencia. Este método genera una solución final en la que existe un factor general y pesos pequeños en las variables. El método equamax es una combinación de los anteriores. Se minimiza tanto el número de variables que saturan alto en un factor como el número de factores necesarios para explicar una variable. 5.2. Rotación oblicua
No siempre es adecuado asumir que los factores son independientes. Para no imponer la ortogonalidad, cada uno de los factores de la matriz puede girarse un ángulo diferente. De este modo, cada factor da cuenta de la covariación de diferentes grupos de variables. Como resultado, los factores ya no formarán un ángulo de 90º y por tanto, no serán ortogonales sino oblicuos; es decir, correlacionarán entre sí. Este procedimiento, como ventaja frente al anterior, ofrece seguridad de que la ortogonalidad no viene impuesta por el método de rotación. Existen diferentes métodos para llevar a cabo la rotación oblicua. Por ejemplo, el método oblimax que maximiza las saturaciones altas y bajas y minimiza las de valor intermedio. O el método oblimin, que utiliza como criterio la expresión:
donde y son saturaciones a asignar.
Cuando = 0 se obtiene la solución más oblicua (método quartimin, que minimiza la suma de los productos internos de las saturaciones). A medida que aumenta, los factores son menos oblicuos. Por ejemplo, si = 1, la solución es menos oblicua (método covarimin). Para una solución intermedia ( = 0.50) puede emplearse el método bicuartimin.
6. Estimación de las puntuaciones factoriales En el análisis factorial, el objetivo suele ser estimar los parámetros del modelo. Sin embargo, también pueden calcularse las puntuaciones de los sujetos en los factores obtenidos. Con los métodos de extracción por ejes principales, máxima verosimilitud y mínimos cuadrados generalizados las puntuaciones factoriales no se calculan directamente sino que se estiman. Hay diferentes procedimientos para estimar las puntuaciones factoriales a partir de la matriz factorial o de la matriz factorial rotada. Aquí se comentan dos de ellos.
AN LISIS FACTORIAL
113
6.1. Método de Bartlett
Dado que el modelo factorial proporciona estimaciones sobre las matrices , e implica que las i no necesitan ser iguales, Bartlett (1937) propuso el uso del método de mínimos cuadrados ponderados para estimar las puntuaciones en los factores comunes. La suma de cuadrados de los errores ponderada por el recíproco de sus -1
-1
- f )' X - f Bartlett sugiere que(2)se elijan varianzas es: ' de f que = (Xminimicen los estimadores la(anterior).expresión. Es decir:
fˆ
(ˆ' ˆ
1
ˆ ) 1 ˆ ' ˆ 1 X
Las puntuaciones resultantes son típicas de media 0 y matriz de covarianzas I. Con este procedimiento se minimiza la suma de cuadrados de los factores únicos sobre el rango de las variables pero no se asegura la independencia entre los factores estimados.(3) 6.2. Método de regresión
Si puede asumirse que X y f tienen una distribución normal conjunta , entonces, la regresión de con media 0 y matriz de covarianzas '
'
I
f sobre X es la distribución condicionada f | X que es normal multivariante con:
E(f | X) = ' ( ' + )-1 X Cov(f | X) = I – ' ( ' + )-1 Las estimaciones de dichos coeficientes producen puntuaciones factoriales análogas a las del análisis de regresión múltiple (véase capítulo 3). Por tanto, las puntuaciones factoriales vienen dadas por: fˆ
' S 1 X
o fˆ ' R 1 z si se trabaja a partir de la matriz R
(2)
En el método MV, las saturaciones han de satisfacer la condición = ' -1 . Por tant ˆ 1X. Con el método de extracción CP, los i son iguales. Por tanto: fˆ ˆ ' ˆ ˆ 1X. fˆ 1 ˆ '
(3)
El método de Anderson-Rubin es una modificación del de Bartlett, que asegura la independencia de los factores estimados.
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
114
Dichas puntuaciones tienen de media 0 y varianza igual al cuadrado de la correlación múltiple entre las puntuaciones factoriales estimadas y los valores factoriales verdaderos. Con este método es posible que las puntuaciones factoriales estén correlacionadas. En el siguiente apartado se muestra un ejemplo donde se ilustra tanto la rotación como el cálculo de las puntuaciones factoriales.
7. Ejemplo El departamento de selección de una empresa mide cuatro variables de inteligencia: razonamiento abstracto (X1), razonamiento espacial (X2), razonamiento verbal (X3) y razonamiento numérico (X4) y tres de personalidad: neuroticismo (X5), ansiedad (X6) y extroversión (X7) en una muestra de 200 aspirantes a un puesto de gestión comercial. La matriz de correlaciones entre las siete variables medidas es:
X1 1.00000 0.47459 X2 0.47459 1.00000 X3 0.76270 0.53360 R X 4 0.59866 0.43970 X5 0.18803 0.20078 X6 0.30870 0.20925 X7 0.30985 0.23193
0.76270 0.53360 1.00000 0.62619 0.14080 0.23609 0.23273
0.59866 0.43970 0.62619 1.00000 0.20309 0.26055 0.21590
0.18803 0.30870 0.20078 0.20925 0.14080 0.23609 0.20309 0.26055 1.00000 0.30970 0.30970 1.00000 0.26950 0.34727
0.30985 0.23193 0.23273 0.21590 0.26950 0.34727 1.00000
A continuación se presentan los resultados del análisis factorial en el que se extraen 2 factores (uno que resume las variables de inteligencia y otro las de personalidad) mediante el método de componentes principales y el de ejes principales. a). AF con método de componentes principales:
Nº de orden 1 2 3 4 5 6 7
Autovalor 3.148 1.218 0.743 0.662 0.579 0.425 0.225
Matriz de saturaciones:
% varianza 44.967 17.404 10.618 9.462 8.267 6.073 3.209
% acumulado 44.967 62.371 72.989 82.452 90.718 96.791 100.00
AN LISIS FACTORIAL
0.844 - 0.692 0.833 0.770 - 0.402 0.512 0.497
115
0.224 0.092 - 0.179 0.172 0.353 0.022 0.238 - 0.092 0.618 0.640 - 0.551 0.207
0.068 0.315 0.034 0.150 0.100 0.559
0.179 0.594 0.100 0.236 0.173 0.028
- 0.520
0.461
0.140
0.494
0.308 0.313 0.067 0.049 0.222 0.349 0.513 0.032 . 0.085 0.014 0.001 0.024 0.077
0.028
De la matriz puede deducirse que cada una de las comunalidades es 1. Por ejemplo, la primera es: 0.844 0.224 0.092 h12 0.844 0.224 0.092 0.068 0.179 0.308 0.313 0.068 1.000 0.179 0.308 0.313 Y que cada una de las unicidades es 0 pues se explica toda la varianza. b). AF con método de ejes principales. Con el método EP se lleva a cabo el análisis factorial a partir de la matriz reducida:
0.62833 0.47459 0.76270 0.59866 0.18803 0.30870 0.30985 0.47459 0.32327 0.53360 0.43970 0.20078 0.20925 0.23193 0.76270 0.53360 0.65209 0.62619 0.14080 0.23609 0.23273 R* 0.59866 0.43970 0.62619 0.44685 0.20309 0.26055 0.21590 0.18803 0.20078 0.14080 0.20309 0.14562 0.30970 0.26950 0.30870 0.20925 0.23609 0.26055 0.30970 0.21045 0.34727 0.19260 0 . 30985 0 . 23193 0 . 23273 0 . 21590 0 . 26950 0 . 34727 Que incluye en la diagonal principal (y en negrita) las estimaciones iniciales de las comunalidades. Sus autovalores son: ' 3.148 1.218 0.743 0.662 0.579 0.425 0.225 .
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
116
Gráfico de sedimentación 3.5 3.0 2.5
r lo a 2.0 v to 1.5 u A
1.0 .5 0.0
1
2
3
4
5
6
7
Número de factor
Según la regla de Kaiser y como refleja el gráfico de sedimentación, el análisis ha extraído dos factores pues hay dos autovalores mayores que uno. Los autovectores correspondientes a los dos primeros factores y la matriz de saturaciones son las siguientes:
0.174 0.508 0.370 0.057 0.507 0.367 ; A 0.433 0.145 0.523 0.191 0.253 0.537 0.245 0.499
0.829 0.123 0.594 0.039 0.866 0.316 0.702 0.098 0.316 0.393 0.428 0.444 0.405 0.377
h12 0 .70 ; h 22 0 .36 ; h32 0 .85 y las 2 2 2 2 h 4 0 .50 ; h5 0 .25 ; h 6 0 .38 y h 7 0 .31 2 . 73 varianzas 1 2 0 . 62 Donde
El modelo de dos factores explica el 45.85% de la varianza total. Los resultados de la prueba de Bartlett ofrecen un estadístico X2 = 442.64 que se distribuye según 2 con 1/2 (p2 – p) = (72 – 7) / 2 = 21 grados de libertad. Consultando la tabla 3 del anexo se observa que con = 0.05 el punto crítico es 11.59. Puesto que 442.64 > 11.59 se rechaza H0. El índice KMO es 0.81. Ambas pruebas indican que es apropiado utilizar el análisis factorial. A continuación se realiza una rotación ortogonal varimax en la que los factores se rotan un ángulo de 63º. Tras multiplicar la matriz por la matriz
AN LISIS FACTORIAL
117
de transformación se llega a la matriz factorial rotada:
0.268 0.794 h12 0 . 70 0.547 0.236 2 h 2 0 . 36 0.915 2 0.114 . Donde h 3 0 . 85 R 0.669 0.233 h 42 0 . 50 h 2 0 . 25 0.102 0.494 5 0.591 h 622 0 . 38 0.179 0.189 0.521 h 7 0 . 31
2 .29 y 1
2 1 .06
Las comunalidades no cambian y la varianza explicada tampoco aunque sí la varianza de los factores. En este ejemplo, parece que las cuatro primeras variables se agrupan en el primer factor y las tres últimas en el segundo. La matriz reproducida y la residual son las siguientes: 0.702 - 0.497 0.756 R r 0.594 - 0.213 0.300 0.289
0.023 0.006 R e 0.005 0.025 0.009 0.021
0.355 - 0.527 0.849 - 0.421 0.638 0.502 0.172 - 0.149 - 0.183 - 0.237 - 0.226
- 0.007 - 0.019 0.029 0.028 - 0.006
0.231 0.232
- 0.012 0.008 0.006 0.001
0.254
0.257 - 0.310 0.247 - 0.276
- 0.020 0.003 - 0.031
0.381 0.341 0.307
0.000 0.007
0.006
A continuación se ilustra el cálculo de las puntuaciones factoriales para el primer sujeto, 0.23 cuyo 1.05 1.36vector 0.27 0.de 18. puntuaciones z' 0.50 1.35 Estimación mediante el método de Bartlett: fˆ
0.418 ( ˆ ' ˆ 1 ˆ ) 1 ˆ ' ˆ 1 z 0.494
típicas
es:
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
118
Estimación mediante el método de regresión: fˆ
0.355 (4) 'R 1 z 0 .223
Los resultados del análisis factorial con el método de máxima verosimilitud se muestran en el siguiente apartado.
8. El análisis factorial y el lenguaje MATRIX del SPSS Al igual que en el ACP, cuando se dispone de los datos srcinales sobre las variables observadas, se introducen en el editor de datos del SPSS y se utiliza el procedimiento Análisis Factorial para extraer los factores. Cuando no se dispone de los datos srcinales y sólo conoce el nº de variables y sujetos y la matriz R (o la matriz S), el AF se puede llevar a cabo mediante el lenguaje MATRIX del SPSS. La sintaxis correspondiente a los datos del ejemplo de un factor con método de extracción EP es la siguiente: Matrix data var X1 X2 X3 /FORMAT lower diag/cont CORR /n=200. BEGIN DATA. 1.00 .83 1.00 .78 .67 1.00 END DATA. FACTOR /MATRIX=in(COR=*) /MISSING LISTWISE /ANALYSIS X1 X2 X3 /PRINT INITIAL EXTRACTION CORRELATION SIG DET KMO /PLOT EIGEN /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION PAF /METHOD=CORRELATION .
Los resultados obtenidos al ejecutar la sintaxis son los siguientes:
(4)
Los resultados son similares. Por simplicidad, no se incluyen los cálculos. El lector puede realizarlos mediante el lenguaje MATRIX.
AN LISIS FACTORIAL
119 Matriz de correlaciones
Correlación
Sig. (Unilateral)
a
X1
X1 1.000
X2 .830
X2
.830
1.000
.670
X3
.780
.670
1.000
.000
.000
X1 X2
.000
X3
.000
X3 .780
.000 .000
a. Determinante = .121
KMO y prueba de Bartlett Medida de adecuación muestral de Kaiser-Meyer-Olkin. Prueba de esfericidad de Bartlett
Chi-cuadrado aproximado
.704
415.895
gl Sig.
3 .000
En primer lugar aparece la matriz de correlaciones y en segundo el resultado la prueba de esfericidad Bartlett del valor dely índice KMO Como se de observa, el estadístico de de Bartlett es ysignificativo el valor del. índice KMO se encuentra dentro de los límites establecidos, por lo que el uso del análisis factorial es adecuado o tiene sentido. La siguiente tabla muestra las estimaciones iniciales de las comunalidades que se incluyen en la diagonal principal de la matriz R* y las comunalidades obtenidas tras la extracción. Comunalidades
X1
Inicial .780
Extracción .963
X2
.690
.714
X3
.610
.630
Método de extracción: Factorización de Ejes principales.
A continuación se muestran los autovalores iniciales y los reproducidos por la matriz de saturaciones tras la extracción con el método de ejes principales y el gráfico de sedimentación. En este caso, se observa que el modelo de un factor explica el 76.94% de la varianza total.
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
120
Varianza total explicada Sumas de las saturaciones al cuadrado de la extracción
Autovalores iniciales Total 2.522
% de la varianza 84.064
2
.334
11.137
95.201
3
.144
4.799
100.000
Factor 1
% acumulado 84.064
Total 2.308
% de la varianza 76.937
% acumulado 76.937
Método de extracción: Factorización de Ejes principales. Gráfico de sedimentación 3.0 2.5 r 2.0 lo a v 1.5 to u A 1.0
.5 0.0 1
2
3
Número de factor
Por último, se muestra la matriz factorial ( ) que incluye las saturaciones de las variables en el único factor extraído. Puesto que solamente se ha extraído un factor, no es posible llevar a cabo la rotación. Matriz factorial a Factor X1
1 .982
X2
.845
X3
.794
Método de extracción: Factorización del eje principal. a. 1 factores extraídos. Requeridas 13 iteraciones.
La sintaxis para llevar a cabo el AF con los datos del ejemplo de dos factores con método de extracción por máxima verosimilitud y rotación varimax es la siguiente:
AN LISIS FACTORIAL
121
Matrix data var X1 X2 X3 X4 X5 X6 X7 /FORMAT lower diag/cont CORR /n=200. BEGIN DATA. 1.00000 -.47459 1.00000 .76270 -.53360 1.00000 .59866 -.43970 .62619 1.00000 -.18803 .20078 -.14080 -.20309 1.00000 .30870 -.20925 .23609 .26055 -.30970 1.00000 .30985 -.23193 END DATA.
.23273
.21590 -.26950
.34727 1.00000
FACTOR /MATRIX=in(COR=*) /MISSING LISTWISE /ANALYSIS X1 X2 X3 X4 X5 X6 X7 /PRINT INITIAL EXTRACTION CORRELATION SIG DET KMO REPR ROTATION /PLOT EIGEN ROTATION /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION ML /ROTATION VARIMAX /METHOD=CORRELATION .
Los resultados obtenidos son los siguientes: as Matriz de correlacione
Correlación
X1
X1 1.000
X2 -.475
X3 .763
X4 .599
X5 -.188
X6 .309
X7 .310
X2
-.475
X3
.763
1.000
-.534
-.534
1.000
-.440
.201
-.209
-.232
.626
-.141
.236
X4
.599
-.440
.233
.626
1.000
-.203
.261
X5
-.188
.216
.201
-.141
-.203
1.000
-.310
-.270
X6 X7
.309
-.209
.236
.261
-.310
1.000
.347
.310
-.232
.233
.216
-.270
.347
1.000
.000
.000
.000
.004
.000
.000
.000
.000
.002
.001
.000
.000
.023
.000
.000
.002
.000
.001
.000
.000
Sig. (Unilateral X1 X2
.000
X3
.000
.000
X4
.000
.000
.000
X5
.004
.002
.023
.002
X6
.000
.001
.000
.000
.000
X7
.000
.000
.000
.001
.000
.000 .000
a. Determinante = .104
Como en el ejemplo anterior, en primer lugar aparece la matriz de correlaciones con sus pruebas de significación y a continuación el resultado de la prueba de esfericidad de Bartlett y el valor del índice KMO. Como se
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
122
observa, el estadístico de Bartlett es significativo y el valor del índice KMO está dentro de los límites establecidos. Por tanto, el uso del modelo factorial es adecuado. KMO y prueba de Bartlett Medida de adecuación muestral de Kaiser-Meyer-Olkin.
.805
Prueba de esfericidad
Chi-cuadrado
de Bartlett
aproximado gl Sig.
442.638 21 .000
A continuación se muestran las estimaciones iniciales y finales de las comunalidades y los autovalores iniciales y los reproducidos por la matriz de saturaciones tras la extracción. En este caso, al igual que con los restantes métodos de estimación vistos en el apartado 7, el modelo explica el 47.87% de la varianza total. También se muestra el gráfico de sedimentación. Comunalidades
X1
Inicial .628
Extracción .709
X2
.323
.352
X3 X4
.652
.853
.447
.492
X5
.146
.254
X6
.210
.379
X7
.193
.311
Método de extracción: Máxima verosimilitud.
Varianza total explicada
Autovalores iniciales
Sumas de las saturaciones al Suma de las saturaciones al cuadrado de la extracción cuadrado de la rotación
Fac % de la % % de la % % de la % tor Total varianza acumulado Total varianza acumulado Total varianza acumulado 1 3.148 44.967 44.967 2.648 37.831 37.831 2.295 32.789 32.789 2 1.218 17.404 62.371 .702 10.035 47.866 1.055 15.077 47.866 3 4
.743 .662
10.618 9.462
72.989 82.452
5
.579
8.267
90.718
6
.425
6.073
96.791
7
.225
3.209
100.000
Método de extracción: Máxima verosimilitud.
AN LISIS FACTORIAL
123 Gráfico de sedimentación
3.5 3.0 r lo a v o t u A
2.5 2.0 1.5 1.0 .5 0.0 1
2
3
4
5
6
7
Número de factor
A continuación se muestra la matriz factorial ( ) que incluye las saturaciones de las variables en los dos factores extraídos y fueron obtenidas en 6 iteraciones. Matriz factorial
a
Factor X1
1 .841
2 .041
X2
-.589
-.070
X3
.913
-.142
X4
.700
.049
X5
-.225
-.451
X6
.337
.515
X7
.326
.452
Método de extracción: Máxima verosimilitud. a. 2 factores extraídos. Requeridas 6 iteraciones.
La solución factorial por máxima verosimilitud ofrece un resultado difícil de interpretar por lo que se necesita rotar los factores. Se llevó a cabo una rotación varimax con un ángulo de 74º a partir de la siguiente matriz de transformación: Matriz de transformación de los factores Factor 1
1 .963
2 .271
2
-.271
.963
Método de extracción: Máxima verosimilitud. Método de rotación: Normalización Varimax con Kaiser.
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
124
Tras multiplicar la matriz factorial por la matriz de transformación se llega a la siguiente matriz rotada en tres iteraciones: Matriz de factores rotados a Factor X1
1 .798
2 .267
X2
-.548
-.227
X3 X4
.917
.111
.660
.237
X5
-.095
-.496
X6
.185
.587
X7
.192
.523
Método de extracción: Máxima verosimilitud. Método de rotación: Normalización Varimax con Kaiser. a. La rotación ha convergido en 3 iteraciones.
Como se observa, la rotación ha facilitado la interpretación pues las cuatro primeras variables saturan en el primer factor (de inteligencia) y las tres últimas en el segundo factor (de personalidad). Esta configuración puede verse más claramente en el gráfico de saturaciones en el espacio factorial rotado que ofrece el SPSS: Gráfico de saturaciones en espacio factorial rotado 1.0
x6 x7 .5
2 r to c a F
0.0
x4 x1 x2 x5
-.5
-1.0 -1.0
x3
-.5
0.0
.5
1.0
Factor 1
El método de máxima verosimilitud ofrece además el resultado de la prueba de bondad de ajuste chi-cuadrado para valorar el ajuste del modelo:
AN LISIS FACTORIAL
125 Prueba de la bondad de ajuste
Chi-cuadrado 3.683
gl 8
Sig. .885
Como se observa, el estadístico X2 toma el valor 3.683 y se distribuye aproximadamente según 2 con 1/2 [(p – q)2 – (p + q)] = 8 grados de libertad. El valor del estadístico no resulta significativo (véase tabla 3 del anexo) por lo que el modelo de dos factores ofrece un buen ajuste estadístico. Por último se muestran la matriz de correlaciones reproducida ( Rr) y la matriz residual (Re): Correlaciones reproducidas
Correlación reproducida X1
X1 .7088b
X2 X3
Residuala
X2 -.4984
X3 .7617
X4 .5906
X5 -.2078
X6 .3044
X7 .2929
-.4984
.3522b
-.5280
.7617
-.5280
.8530b
-.4159
.1642
-.2345
-.2239
.6319
-.1417
.2346
X4
.5906
-.4159
.2341
.6319
.4923b
-.1798
.2612
X5
-.2078
.2507
.1642
-.1417
-.1798
.2545b -.3086
-.2774
X6 X7
.3044
-.2345
.2346
.2612
-.3086
.3793b
.3429
.2929
-.2239
.2341
.2507
-.2774
.3429
.3106b
.0238
.0010
.0081
.0197
.0043
.0169
-.0056
-.0238 -.0057
.0366 .0009
.0253 .0014
-.0080 -.0013
-.023
-.0006
-.0348
-.0011
.0079
X1 X2 X3
.0238 .0010
-.0056
X4
.0081
-.0238
-.0057
X5
.0197
.0366
.0009
-.0233
X6
.0043
.0253
.0014
-.0006
-.001
X7
.0169
-.0080
-.0013
-.0348
.0079
.0044 .0044
Método de extracción: Máxima verosimilitud. a. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 0 (.0%) residuos no redundantes con valores absolutos > 0,05. b. Comunalidades reproducidas
La matriz residual es otro indicador de bondad de ajuste. Como puede observarse, no hay ningún residuo entre los elementos que se encuentran fuera de la diagonal principal que tome valores absolutos mayores que 0.05, por lo que puede concluirse que el modelo obtiene un buen ajuste.
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
126
9. Ejercicios 1.
A partir de las puntuaciones de 10 sujetos en tres pruebas: escala de extroversión (X1), escala de apertura X( 2) y escala de persuasión X( 3) se ha obtenido la siguiente matriz de covarianzas:
S
X 1 4 2 10 X 2 2 7 2 X 3 10 7 36
Realice un análisis factorial (método componentes principales) a partir únicamente de las variables X1 y X3. Comente la importancia de cada factor encontrado y su posible interpretación. 2.
La matriz de correlaciones de 200 sujetos en 5 variables es la siguiente:
R
X1 X2 X3 X4 X5
1 .0000
0 .7627 1 .0000
0 . 5987 0 .6262 1 .0000
0 .3087 0 .2361 0 .2606 1 . 0000
0 .3099 0 .2327 0 .2159 0 .3473 1 . 0000
Realice un análisis factorial con método de extracción máxima verosimilitud y rotación varimax mediante el lenguaje MATRIX del SPSS. Interprete los resultados obtenidos y la prueba de bondad de ajuste del modelo estimado.
Referencias bibliográficas Amón, J. (1991). Introducción al análisis multivariante (cálculo matricial). Barcelona. Promociones y publicaciones universitarias, S.A. Andersen, E. B. (1980). Discrete statistical models with social science applications. Amsterdam. North Holland. Anderson, T. W. (1984). An introduction to multivariate statistical analysis. New York. Chichester: Wiley. Arnold, S. F. (1981). The theory of Linear Models and Multivariate Analysis. New York. John Wiley. Bartlett, M. S. (1937). The statistical conception of mental factors. British Journal of Psychology, 28, 97-104. Basilevsky, A. (1983). Applied matrix algebra in the statistical sciences. New York, Oxford. North Holland. Basilevsky, A. (1994). Statistical factor analysis and related methods: theory and applications. New York. John Wiley and sons. Berry, W. D. & Feldman, S. (1985). Multiple regression in practice. Beverly Hills. Quantitative applications in the social sciences (a Sage university paper). Bishop, Y. M. M., Fienberg, S. E. & Holland, P. W. (1975). Discrete multivariate analysis. Cambridge, Mass. MIT Press. Box, G. E. P., & Draper, N. R. (1987). Empirical model building and
response surfaces . New York: Wiley. sur les probabilites des erreurs de Bravais, A. (1846). Analyse mathematique situation d’un point. Memoria presentada en L’Academie Royale des Sciences de L’Institut de France, Sci. Math. Phys., 9, 255-332. Browne, M.W. & Cudeck, R. (1992). Alternative ways of assessing model fit. Sociological Methods and Research , 27, 269-300. Carroll, J. D. (1997). Mathematical Tools for Applied Multivariate Analysis. San Diego. Academic Press. Cook, D. R. (1999). Applied regression including computing and graphics. New York. Wiley. Dillon, W. R & Goldstein, M. (1984). Multivariate analysis. Methods and applications. New York. Wiley. Draper, N. R. & Smith, H. (1981). Applied regression analysis. New York. John Wiley & Sons. Dunteman, G. H. (1989). Principal components analysis. Newbury Park. Sage, Quantitative applications in the social sciences. Etxebarría, J. (2000). Regresión múltiple. Madrid y Salamanca. La Muralla y Hespérides. Ferrando, P. J. (1993). Introducción al análisis factorial. Barcelona. PPU. Serie Universitas.
128
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
Flury, B. (1988). Common principal components and related multivariate models. New York. John Wiley and sons. Frisch, R. (1929). Correlation and scatter in statistical variables. Nordisk Statistisk Tidsskrift, 8, 36-103. García, E., Gil, J. & Rodríguez, G. (2000). Análisis factorial. Madrid y Salamanca. La Muralla y Hespérides. Gifi, A. (1996). Nonlinear multivariate analysis. Chichester. John Wiley & Sons. Girschick, M. Association A. (1936). , Principal components. Journal of the American Statistical 31, 519-528. Hair, J. F., Anderson, R. E., Tatham, R. L & Black, W. C. (1998). Multivariate data analysis. New Jersey. Prentice Hall. Traducido al castellano en “Análisis multivariante”. Editorial Prentice Hall, 1999 (5ª edición). Harman, H. H. (1980). Análisis factorial moderno. Madrid. Saltés. Herstein, I. N. & Winter, D. J. (1989). Álgebra lineal y teoría de matrices. México. Iberoamericana. Hotelling, H. (1933). Analysis of complex of statistical variables into principal components. Journal of Educational Psychology , 24, 417-441, 498-520. Jackson, J. E. (1991). A user's guide to principal components. New York. Wiley. Johnson, N. L. & Kotz, S. (1969). Discrete distributions. Boston. Houghton Mifflin. Johnson, N.L. & Kotz, S. (1972). Distributions in statistics: continous multivariate distributions. Boston. Houghton Mifflin. Johnson, R. A. & Wichern, D.W. (2002). Applied multivariate statistical analysis. New Jersey. Prentice Hall. 5ª edición. Kaiser, H. F. (1958). The varimax criterion for analytic rotation in factor analisys. Psychometrika, 23, 187-200. Kaiser, H. F. (1974). An index of factorial simplicity. Psychometrika, 39, 3136. Kendall, M. G. (1980). Multivariate analysis. London. Charles Griffin & Co. Krzanowski, W. J. (2000). Principles of Multivariate Analysis: A User's Perspective. Oxford. Oxford Univesity Press. Lawley, D. N. & Maxwell. A. E. (1971). Factor analysis as a statistical method. London. Butterworths. Lewis-Beck, M. S. (1994). Factor analysis and related techniques. London. Sage, International handbooks of quantitative applications in the social sciences, 5. Mardia, K. V., Kent, J. T. & Bibby, J. M. (1997). Multivariate analysis. London. Academic Press. Martín Pliego, F. J. & Ruiz-Maya, L. (1997).Estadística. Volumen I: Probabilidad. Madrid. Editorial AC.
REFERENCIAS
129
Maxwell, A. E. (1977). Multivariate analysis in behavioral research. London. Chapman & Hall. McDonald, R. P. (1962). A general approach to nonlinear factor analysis. Psychometrika, 27, 397-415. McDonald, R. P. (1967). Numerical methods for polynomial models in nonlinear factor analysis. Psychometrika, 32, 77-112. Montgomery, D. & Peck, E. A. (1992).Introduction to linear regression analysis. New York. Wiley. Muirhead, Wiley. R. J. (1982).Aspects of multivariate statistical theory. New York. Mulaik, S. A. (1972). The foundations of factor analysis. New York. McGraw-Hill Series in Psychology. Myers, R. H. & Montgomery, D. C. (1995). Response surface methodology: Process and product optimization using designed experiments. New York: Wiley. Namboodiri, K. (1984). Matrix algebra. An introduction. Beverly Hills. Sage. Neil, T. H. (2002). Applied Multivariate Analysis. New York. Springer texts in statistics. Neter, J, Kunter, M.H., Nachtsheim, C.J. & Waserman, W. (1996). Applied linear statistical models. Times Mirror Higher Education Grop, Inc. Pardo, A. (2002). Análisis de datos categóricos. Madrid: UNED Ediciones. Pardo, A. & Ruiz, M. A. (2002). SPSS 11. Guía para el análisis de datos. Madrid. McGraw Hill. Pearson, K. (1901). On lines and planes of closest fit to a system of points in space. Philosophical Magazine, 2, 557-572. Pedhazur, E. J. (1982). Multiple regression in behavioral research: explanation and prediction. New York. Holt, Rinehart and Winston. Rao, C. R. & Toutenburg, H. (1995). Linear models. Least squares and alternatives. New York. Springer-Verlag. Rencher, A. C. (1995). Methods of multivariate analysis. New York. Wiley series in probability and mathematical statistics. Revuelta, J. & Ponsoda, V. (2000). Fundamentos de estadística. Madrid. UNED Ediciones. Reyment, R. A., Balckith, R. W. & Campbell, N. A. (1984). Multivariate morphometrics. London. Academic Press. Ruiz, M. A. (2000). Introducción a modelos de ecuaciones estructurales. Madrid. UNED Ediciones. Searle, S. R. (1982). Matrix algebra useful for statistics. New York. Wiley. Steiger, J.H. (1990). Structural model evaluation and identification: An interval estimation approach. Multivariate Behavioral Research, 25, 173-189. Steiger, J.H. & Lind, J. (1980). Statistically based tests for the number of common factors. Annual meeting of the Psychometric Society, Iowa.
130
FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES
Takeuchi, K., Yanai, H. & Mukherjee, B. N. (1982). The foundations of multivariate analysis: a unified approach by means of projection onto linear subspaces. New York. Wiley. Tatsuoka, M. M. & Lohnes, P. R. (1988). Multivariate analysis: Techniques for educational and psychological research (2ª ed.). New York. Macmillan Publishing Co, Inc. Thurstone, L. L. (1935). The vectors of the mind . Chicago. University of Chicago Press. Tucker, L.R. &factor Lewis, C. (1973). A reliability coefficient for maximum likelihood analysis. Psychometrika , 35, 417-437. Weisberg, S. (1985). Applied linear regression. New York. Wiley Series in Probability and Statistics. Winter, D. J. (1992). Matrix algebra. New York. MacMillan. Ximénez, M. C. & San Martín, R. (2000). Application of response surface methodology to the study of person-organization fit. Psicothema, 12, 151-158. Yalcin, I. & Amemiya, Y. (2001). Nonlinear factor analysis as a statistical method. Statistical Science, 16, 275-294. Zhu, H. T. & Lee, S. Y. (1999). Statistical analysis of nonlinear factor analysis models. The British Journal of Mathematical and Statistical Psychology, 52, 225-242.
ANEXOS Tabla 1. Distribución de probabilidad normal tipificada N(0, 1) Tabla 2. Distribución de probabilidad t de Student Tabla 3. Distribución de probabilidad de 2 de Pearson Tabla 4. Distribución de probabilidad F de Snedecor
ANEXOS
133
Tabla 1. Distribución de probabilidad normal tipificada N(0, 1) N(0, 1)
Fórmula: F ( z )
1 2
z
e x
2
/2
dx
zi
z 0.00 0.0 0.5000
0.01 0.02 0.03 0.04 0.5040 0.5080 0.5120 0.5160
0.05 0.06 0.07 0.08 0.09 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8
0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641
0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649
0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656
0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664
0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671
0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678
0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686
0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693
0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699
0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706
1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9
0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9987 0.9990 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 1.0000
0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9987 0.9991 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 1.0000
0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9987 0.9991 0.9994 0.9995 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000
0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988 0.9991 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000
0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000
0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000
0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000
0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989 0.9992 0.9995 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000
0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9990 0.9993 0.9995 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000
0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 0.9999 1.0000
Ejemplos: P(z 1.33) = 0.9082; P(z -2.08) = 1 – 0.9812 = 0.0188;
P(z 1.33) = 1 – 0.9082 = 0.0918; P(z -2.08) = 0.9812
FUNDAMENTOS DE LAS T NICAS MULTIVARIANTES
134
Tabla 2. Distribución de probabilidad t de Student
t gl
n 1 F ( x) 2 n n 2
Fórmula: ti gl
0.50
0.60
0.70
0.75
0.80
0.90
0.95
21 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.325 0.289 0.277 0.271 0.267 0.265 0.263 0.262 0.261 0.260 0.260 0.259 0.259 0.258 0.258 0.258 0.257 0.257
0.727 0.617 0.584 0.569 0.559 0.553 0.549 0.546 0.543 0.542 0.540 0.539 0.538 0.537 0.536 0.535 0.534 0.534
1.000 0.816 0.765 0.741 0.727 0.718 0.711 0.706 0.703 0.700 0.697 0.695 0.694 0.692 0.691 0.690 0.689 0.688
1.376 1.061 0.978 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.876 0.873 0.870 0.868 0.866 0.865 0.863 0.862
3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330
19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 200 500
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.257 0.257 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.255 0.255 0.254 0.254 0.254 0.254 0.254 0.254 0.253 0.253
0.533 0.532 0.532 0.532 0.531 0.531 0.531 0.531 0.530 0.530 0.530 0.529 0.528 0.527 0.527 0.526 0.526 0.526 0.525 0.525 0.524
0.688 0.687 0.686 0.686 0.685 0.685 0.684 0.684 0.684 0.683 0.683 0.683 0.681 0.679 0.679 0.678 0.678 0.677 0.677 0.676 0.675 0.674
0.861 0.860 0.859 0.858 0.858 0.857 0.856 0.856 0.855 0.855 0.854 0.854 0.851 0.849 0.848 0.847 0.846 0.846 0.845 0.843 0.842 0.842
1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.303 1.299 1.296 1.294 1.292 1.291 1.290 1.286 1.283 1.282
Ejemplos: P(1.325) t20 = 0.90; P( P(t20 -1.325) = P(t20 1.325) = 0.10;
y2 1 n x
0.975
n 1 2
dy
0.99
0.995
6.314 2.920 12.706 4.303 2.353 3.182 2.132 2.776 2.015 2.571 1.943 2.447 1.895 2.365 1.860 2.306 1.833 2.262 1.812 2.228 1.796 2.201 1.782 2.179 1.771 2.160 1.761 2.145 1.753 2.131 1.746 2.120 1.740 2.110 1.734 2.101
31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552
63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878
1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.684 1.676 1.671 1.667 1.664 1.662 1.660 1.653 1.648 1.645
2.539 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.423 2.403 2.390 2.381 2.374 2.368 2.364 2.345 2.334 2.326
2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.704 2.678 2.660 2.648 2.639 2.632 2.626 2.601 2.586 2.576
2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.021 2.009 2.000 1.994 1.990 1.987 1.984 1.972 1.965 1.960
t20 1.325) = 1 – 0.90 = 0.10; P(t20 -1.325) = P(t20 1.325) = 0.90
ANEXOS
135 Tabla 3. Distribución de probabilidad de 2 de Pearson
p
2 gl Fórmula:
0 2
F(x)
+
1 n 2n/ 2 2
x
y(n2 )1 ey/ 2dy
p g.l. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
0.005 0.00 0.01 0.07 0.21 0.41 0.68 0.99 1.34 1.73 2.16 2.60 3.07 3.57 4.07 4.60 5.14 5.70 6.26 6.84 7.43 8.03 8.64 9.26 9.89 10.52 11.16 11.81 12.46 13.12 13.79
0.01 0.00 0.02 0.11 0.30 0.55 0.87 1.24 1.65 2.09 2.56 3.05 3.57 4.11 4.66 5.23 5.81 6.41 7.01 7.63 8.26 8.90 9.54 10.20 10.86 11.52 12.20 12.88 13.56 14.26 14.95
0.025 0.00 0.05 0.22 0.48 0.83 1.24 1.69 2.18 2.70 3.25 3.82 4.40 5.01 5.63 6.26 6.91 7.56 8.23 8.91 9.59 10.28 10.98 11.69 12.40 13.12 13.84 14.57 15.31 16.05 16.79
0.05 0.00 0.10 0.35 0.71 1.15 1.64 2.17 2.73 3.33 3.94 4.57 5.23 5.89 6.57 7.26 7.96 8.67 9.39 10.12 10.85 11.59 12.34 13.09 13.85 14.61 15.38 16.15 16.93 17.71 18.49
Ejemplos: P(216 32) = 0.99;
0.10 0.02 0.21 0.58 1.06 1.61 2.20 2.83 3.49 4.17 4.87 5.58 6.30 7.04 7.79 8.55 9.31 10.09 10.86 11.65 12.44 13.24 14.04 14.85 15.66 16.47 17.29 18.11 18.94 19.77 20.60
0.90 2.71 4.61 6.25 7.78 9.24 10.64 12.02 13.36 14.68 15.99 17.28 18.55 19.81 21.06 22.31 23.54 24.77 25.99 27.20 28.41 29.62 30.81 32.01 33.20 34.38 35.56 36.74 37.92 39.09 40.26
0.95 3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31 19.68 21.03 22.36 23.68 25.00 26.30 27.59 28.87 30.14 31.41 32.67 33.92 35.17 36.42 37.65 38.89 40.11 41.34 42.56 43.77
0.975 5.02 7.38 9.35 11.14 12.83 14.45 16.01 17.53 19.02 20.48 21.92 23.34 24.74 26.12 27.49 28.85 30.19 31.53 32.85 34.17 35.48 36.78 38.08 39.36 40.65 41.92 43.19 44.46 45.72 46.98
0.98 5.41 7.82 9.84 11.67 13.39 15.03 16.62 18.17 19.68 21.16 22.62 24.05 25.47 26.87 28.26 29.63 31.00 32.35 33.69 35.02 36.34 37.66 38.97 40.27 41.57 42.86 44.14 45.42 46.69 47.96
0.99 6.63 9.21 11.34 13.28 15.09 16.81 18.48 20.09 21.67 23.21 24.72 26.22 27.69 29.14 30.58 32.00 33.41 34.81 36.19 37.57 38.93 40.29 41.64 42.98 44.31 45.64 46.96 48.28 49.59 50.89
P( 216 32) = 1 - 0.99 = 0.01
Para gl > 30 los puntos de la distribución 2 pueden obtenerse mediante la expresión: 2 p gl
1 ( z p 2 gl 1) 2 2
0.995 7.88 10.60 12.84 14.86 16.75 18.55 20.28 21.95 23.59 25.19 26.76 28.30 29.82 31.32 32.80 34.27 35.72 37.16 38.58 40.00 41.40 42.80 44.18 45.56 46.93 48.29 49.64 50.99 52.34 53.67
0.999 10.83 13.82 16.27 18.47 20.52 22.46 24.32 26.12 27.88 29.59 31.26 32.91 34.53 36.12 37.70 39.25 40.79 42.31 43.82 45.31 46.80 48.27 49.73 51.18 52.62 54.05 55.48 56.89 58.30 59.70
Esta monografía se ha elaborado como material de apoyo para los estudiantes del curso de doctorado Fundamentos de las técnicas multivariantes, del programa de doctorado interuniversitario de "Metodología de las Ciencias del Comportamiento", impartido conjuntamente por la UAM, la UCM y la UNED. La presente monografía está dirigida a aquellos, que teniendo una formación básica en estadística, desean profundizar en las técnicas que analizan simultáneamente un conjunto de variables. Se pretende que el lector adquiera la base para la comprensión y el manejo de las técnicas multivariantes. Con este fin, se revisan las nociones básicas sobre álgebra de matrices necesarias para su formulación. Asimismo, se expone el concepto de distribución multivariante, marginal y condicional con especial atención a la distribución normal multivariante. Por último, se presentan tres técnicas multivariantes, el análisis de regresión múltiple, el análisis de componentes principales y el análisis factorial. Para cada una de ellas se expone su formulación teórica, supuestos, métodos de estimación y de verificación del modelo, así como diversos ejemplos y ejercicios. Además se introduce la utilización del lenguaje MATRIX del programa SPSS para llevar a cabo operaciones matriciales y los análisis requeridos por las diferentes técnicas tratadas.
ISBN 84-362-5059-1
36195
9 78 843 6 2 50596
Abierta 36195AA01A01