Fundamentos de Las Técnicas Multivariantes

36195AA01A01

FUNDAMENTOS DE LAS TÉCNICAS MULTIVARIANTES

M. CARMEN XIMÉNEZ GÓMEZ RAFAEL SAN MARTÍN CASTELLANOS

UNED EDICIONES

Subido por:

Libros de Ingeniería Química y más

https://www.facebook.com/pages/InterfaseIQ/146073555478947?ref=bookmarks

Si te gusta este libro y tienes l a posibilidad, cómpralo para apoyar al autor.

M. Carmen Ximénez Rafael San Martín


UNIVERSIDAD NACIONAL DE EDUCACIÓN A DISTANCIA


FUND AMENTOS DE L AS TÉCNICAS MULTI VARI ANTES

Quedan rigurosamente prohibidas, sin la autorización escrita de los titulares del Copyright, bajo las sanciones establecidas en las leyes, la reproducción total o parcial de esta obra por cualquier medio o procedimiento, comprendidos la reprografía y el tratamiento informático, y la distribución de ejemplares de ella mediante alquiler o préstamo públicos.

© UNIVERSIDAD NACIONAL DE EDUCACIÓN A DISTANCIA - Madrid,  

© M. Carmen Ximénez, Rafael San Martín

       

ÍNDICE INTRODUCCIÓN

1

CAPÍTULO 1. NOCIONES BÁSICAS DE ÁLGEBRA DE MATRICES

1. Conceptos previos 2. Operaciones con matrices 2.1. Cálculo de la traspuesta de una matriz 2.2. Suma de matrices 2.3. Multiplicación por un escalar 2.4. Producto de dos matrices 2.5. Cálculo del determinante de una matriz 2.6. Cálculo de la matriz inversa 3. Usos de matrices y determinantes 3.1. Sistema de ecuaciones lineales 3.2. Rango de una matriz 3.3. Autovalores 3.4. Autovectores 3.5. Ejemplo resuelto 3.6. Formas cuadráticas 4. Vectores y estadísticos 5. Combinaciones lineales 6. El álgebra de matrices y el lenguaje MATRIX del SPSS

9 11 11 11 12 12 14 15 15 15 17 17 18 19 20 21 23 24

7. Ejercicios

30

CAPÍTULO 2. LA DISTRIBUCIÓN NORMAL MULTIVARIANTE

1. Concepto de distribución multivariante, marginal y condicional 2. La distribución normal multivariante 3. La distribución normal bivariante 4. Ejercicios

33 39 42 48

CAPÍTULO 3. ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

1. Introducción 2. El modelo lineal general 3. Estimación de parámetros 3.1. Método de estimación de mínimos cuadrados 3.2. Método de estimación de máxima verosimilitud 4. Verificación del modelo

49 49 51 52 56 57

4.1. de ajuste 4.2. Medidas Contrastede debondad hipótesis 5. Análisis del cumplimiento de los supuestos 5.1. Linealidad de la relación 5.2. Independencia 5.3. Homocedasticidad 5.4. Normalidad

57 59 61 62 62 63 63

5.5. Ausencia de colinealidad 6. Simplificación de modelos 6.1. Backward (método hacia atrás) 6.2. Forward (método hacia delante) 6.3. Stepwise (método por pasos sucesivos) 7. El análisis de regresión múltiple y el lenguaje MATRIX del SPSS 8. Ejercicios

64 66 67 67 68 72 81

CAPÍTULO 4. ANÁLISIS DE COMPONENTES PRINCIPALES

1. Introducción 2. Cálculo de los componentes 2.1. Cálculo a partir de la matriz S 2.2. Cálculo a partir de la matriz R 2.3. Ejemplo 3. Geometría de los componentes 4. El análisis de componentes principales y el lenguaje MATRIX del SPSS 5. Ejercicios

83 84 85 85 86 90 91 95

CAPÍTULO 5. ANÁLISIS FACTORIAL

1. Introducción 2. Métodos de extracción de factores 2.1. Método de componentes principales 2.2. Método de ejes principales 2.3. Método de máxima verosimilitud 2.4. Método de mínimos cuadrados generalizados 3. Contrastes sobre la adecuación del análisis factorial 4. Reglas para la selección de factores 5. La rotación de factores 5.1. La rotación ortogonal 5.2. La rotación oblicua 6. Estimación de las puntuaciones factoriales 6.1. Método de Bartlett 6.2. Método de regresión 7. Ejemplo 8. El análisis factorial y el lenguaje MATRIX del SPSS 9. Ejercicios

97 102 102 104 106 106 107 108 109 110 112 112 113 113 114 118 126

REFERENCIAS BIBLIOGRÁFICAS

127

ANEXOS

131 133 134 135 136

Tabla 1. Distribución de probabilidad normal tipificada N(0, 1) Tabla 2. Distribución de probabilidad t de Student Tabla 3: Distribución de probabilidad de 2 de Pearson Tabla 4: Distribución de probabilidad F de Snedecor

Introducción Los investigadores a menudo se ven obligados a utilizar medidas múltiples para poder abordar un problema de investigación. Esto ha hecho necesario el manejo de técnicas que permitan analizar simultáneamente un conjunto de variables. La parte de la estadística que recoge estas técnicas es el análisis multivariante. No es fácil encontrar una definición única del análisis multivariante. En términos generales, puede decirse que se refiere al conjunto de técnicas estadísticas que analizan simultáneamente más de dos variables. No obstante, algunos autores plantean que lo que hace al análisis multivariante no es el número de variables sino que las variables consideradas sean aleatorias y estén relacionadas de tal forma que sus efectos no puedan analizarse separadamente. Otros autores afirman que el propósito del análisis multivariante es medir, explicar y predecir el grado de relación entre una (o más de una) combinación lineal de variables con saturaciones calculadas a través de la técnica multivariante utilizada. Una combinación de p variables ponderadas puede definirse formalmente mediante:

Y = a1 X1 + a2 X2 + … + ap Xp Donde X1,calculadas X2, … Xp son las variables observadas y a1, a2, empleada. … ap son las saturaciones mediante la técnica multivariante El resultado es un único valor ( Y) que representa la combinación del conjunto de variables que mejor logra el objetivo de la técnica multivariante en cuestión (reducir la información, clasificar sujetos, etc.). Las técnicas de análisis multivariante pueden utilizar diferentes tipos de variables: cuantitativas, cualitativas o una combinación de ambas. Asimismo, pueden tratar con variables independientes y/o dependientes, que pueden estar relacionadas entre sí en diferente grado y ser observadas o latentes. Existen diferentes técnicas multivariantes. El objetivo de la mayoría es resumir un amplio conjunto de datos mediante el menor número posible de parámetros. La elección de la técnica más adecuada depende de los objetivos de la investigación, del tipo de datos y de si el análisis se refiere a la relación entre variables o entre casos. Cualquier intento de clasificar las técnicas multivariantes es difícil pues no existe consenso sobre cuál de ellos es el más apropiado para decidir cuándo utilizar cada una de las técnicas. Aquí se ha tomado la clasificación elaborada por Hair, Anderson, Tatham y Black (1998) con el objetivo de dar una visión general de las técnicas multivariantes más empleadas en contextos

2

FUNDAMENTOS DE LAS T CNICAS MULTIVARIANTES

aplicados (ver figura 1). Estos autores clasifican las técnicas multivariantes según el tipo de relación que se establece entre las variables (de dependencia o de interdependencia) y según el tipo de escala de medida que utilizan las variables (cuantitativa o cualitativa). (1) Relación de dependencia. Algunas técnicas multivariantes identifican a un conjunto de variables como las que se desea predecir o dependientes y a otras como las explicativas de las primeras o independientes. Dentro de estas técnicas se encuentran las siguientes: Si se toma como criterio el número de variables dependientes y su nivel de medida (cuantitativo y/o cualitativo) se dispone de diferentes técnicas de análisis multivariante. Por ejemplo, el análisis de regresión múltiple, que tiene como objetivo explicar la variación en una variable dependiente cuantitativa a partir de la variación en dos o más variables independientes (generalmente cuantitativas aunque también pueden ser cuantitativas y cualitativas). El análisis conjunto es similar a la regresión múltiple con la diferencia de que todas las variables independientes son cualitativas. Si la variable dependiente es cualitativa y las independientes cuantitativas se aplica la técnica del análisis discriminante. Si las independientes son cualitativas también puede utilizarse el análisis conjunto que permite evaluar subconjuntos de posibles combinaciones de los niveles de las variables en lugar de todas las posibles combinaciones. Si la variable dependiente es dicotómica se utiliza la regresión logística que tiene la ventaja de que no precisa asumir normalidad multivariante ni homogeneidad entre grupos. En este mismo caso, es decir, variable dependiente dicotómica pero con variables independientes cuantitativas y cualitativas pueden emplearse los modelos logit que tampoco requieren asumir normalidad (la monografía de Pardo, 2002, de esta misma colección, trata este tipo de modelos en detalle). Cuando se trabaja con varias variables dependientes cuantitativas y dos o más variables independientes cuantitativas se aplica el análisis de correlación canónica, o el análisis de varianza multivariante (MANOVA) si las variables independientes son cualitativas (el manual de Neter, Kunter, Nachtsheim & Waserman, 1996 aborda la relación entre regresión, MANOVA, etc.). Si las variables dependientes están en múltiples relaciones con variables independientes también cuantitativas y se formula una ecuación para cada variable la técnica multivariante estimar los parámetros de todasdependiente, las ecuaciones simultáneamente es lapara de modelos de ecuaciones estructurales (la monografía de Ruiz, 2000, de esta misma colección, trata estos modelos en detalle). Resumiendo, cada una de las técnicas multivariantes que analizan relaciones de dependencia se relacionan del siguiente modo:

INTRODUCCI N

3

Y1

= X1 + X2 + … + Xp (Cuantitativa) (Cuantitativas y cualitativas) … Análisis de regresión múltiple (Cualitativa) (Cuantitativas) ……….……. Análisis discriminante (Dicotómica) (Cuantitativas) ……….……. Regresión logística (Cuantitativa o cualitativa) (Cualitativas) ……….……... Análisis conjunto

Y1(+Cuantitativas Y2 + … +)Yk =(Cuantitativas X1 + X2 + )……………….. + Xp Análisis de correlación canónica (Cuantitativas) (Cualitativas) ……………… MANOVA Y1 Y. 2 .. Yk (Cuantitativas)

= X11 + X12 + … + X1p = X21 + X22 + … + X2p = Xk1 + Xk2 + … + Xkp (Cuantitativas) …………….. Modelos de ecuaciones estructurales

(2) Relación de interdependencia. Algunas técnicas multivariantes no necesitan clasificar a las variables como dependientes o independientes sino que analizan todas las variables simultáneamente. El objetivo es encontrar la estructura al se conjunto de variables o de casos que son analizados. Dentro de subyacente estas técnicas encuentran las siguientes: Si lo que se analiza es la relación entre variables, las técnicas multivariantes para simplificar la estructura del fenómeno estudiado son el análisis de componentes principales y el análisis factorial. En psicología existen numerosas investigaciones que aplican estas técnicas, sobre todo el análisis factorial en el ámbito de la inteligencia y la personalidad. Si lo que se desea agrupar son casos se utiliza el análisis de conglomerados, aunque esta técnica también se puede utilizar para agrupar variables. Por último, si el interés está en la estructura de un conjunto de objetos hay que aplicar técnicas de escalamiento multidimensional. Como en las relaciones de dependencia, en este caso también hay que tener en cuenta el nivel de medida de las variables (cuantitativo y/o cualitativo). el análisis el cuantitativas, análisis de aunque conglomerados generalmente En se necesita que lasfactorial variablesysean también es posible llevar a cabo ambos análisis con variables cualitativas. En el escalamiento multidimensional los atributos de los objetos se miden de forma cuantitativa. Si los atributos estuvieran medidos de forma cualitativa, se aplicaría el análisis de correspondencias.

S E T N IA R A V I T L U M S A IC N C É T S A L E D S O T N E M A D N U F

4

est n ai ar itv l u m s cia n étc sa l e d n ó cai ci f sia l .C 1 ar u g i F

A I C N E D N E P E D R E T IN

n ó i c la e r e d o ip T

A I C N E D N E P E D

se l b ria v rte n e se n o i acl e R

s

S E L B A I R A V S A I R A V

D V S E T N E I D N E P E D

E L B A I R A V A N U

D V E T N E I D N E P E D

se la p ci in r p se t en n o p m o c e d si si lá n A

la ri to ca f s siil á n A

s o d rae m o lg n o c e d si si ál n A

-

-

-

n ió alc er al o s a n u n e sa v i att it an u C

a v tia t tia n u C

s aso c e tr n e se n o i acl e R

s o d ar e m o l g n o c e d si si ál n A -

cia n ó n ca n ó cia el

as iv itat n a u c sI V n o C

-

n ó is er erg e d si ális n A

o t n u j n co el si ltip ális ú n m A

-

r co e d s sii lá n A

-

a v it at it an u c

s o t jeb o rte n e es n o i acl e R

am r o f e d so d id e M

as v tiat lai u c sI V n o C

a itv a alit u C

et an i ar iv lt u m za n a ria v e d iss i ál n A

la n o is n e m i id lt u m to n ei alm ac s E

sa ci en d n o p rres o c e d iss i ál n A

a v tia itl a u c a m r o f ed so d i d e M

-

-

se n o i ac

n e as iv itat an u c sI V y s D V

es n o cia l re s le til ú m

te n a i si n ális crim n si A d

o t n u j n co si ális n A

cia ts í g lo n ió s re eg R

ti g lo s lo e d o M

-

-

-

-

) A V O N A (M

-

). 1 2 0 2 . g á (p 8 9 9 1 , k c la B y am th a T , n

ecu e d s o le d o M -

se la r u tc u r ste

re so d n A r,i a H e d o d a m o T a:t o N

INTRODUCCI N

5

La clasificación de Hair et al. (1998) presentada aquí, tan sólo hace referencia a las técnicas multivariantes basadas en modelos lineales. No obstante, también hay técnicas multivariantes basadas en modelos no lineales. Dentro del grupo de las que estudian las relaciones de dependencia entre las variables se encuentra por ejemplo la metodología de superficies de respuesta. Se trata de un conjunto de técnicas matemáticas y estadísticas eficaces para el desarrollo e interpretación de ecuaciones polinomiales (ver Box & Draper, 1987; Myers & Montgomery, 1995). Esta técnica proporciona la base necesaria para describir las características de las superficies de respuesta de ecuaciones de regresión complejas.esenciales Tradicionalmente, ha sido empleada en la industria física y química y en otros campos aplicados pero también se ha utilizado en contextos educativos y está empezando a suscitar interés en contextos de investigación social (véase Ximénez y San Martín, 2000). Dentro del grupo de las técnicas que estudian relaciones de interdependencia está el análisis factorial no lineal, introducido por McDonald (1962, 1967) para ofrecer aproximaciones más realistas sobre la relación entre las variables observadas y los factores y un mejor ajuste. Se han publicado diversos trabajos con discusiones teóricas y estudios de simulación sobre el análisis factorial no lineal (para un resumen véase Yalcin & Amemiya, 2001; y Zhu & Lee, 1999) pero hasta el momento ha habido pocas aplicaciones empíricas de este procedimiento. Para una revisión más extensa sobre técnicas multivariantes basadas en modelos no lineales puede consultarse el manual de Gifi (1996). Según Hair et al. (1998), la aplicación exitosa de una técnica multivariante no depende exclusivamente de seleccionar la técnica más adecuada sino que se trata de un proceso que ha de cumplir ciertos pasos. En primer lugar es necesario definir el problema de investigación y los objetivos del análisis en términos conceptuales. Una vez definidos estos conceptos, se especifican las variables, la escala de medida que utilizan (cuantitativa y/o cualitativa) y el tipo de relación que se establece entre ellas. Por ejemplo, en una relación de dependencia es necesario especificar la(s) variable(s) dependiente(s) y las variables independientes. Con el modelo conceptual y la especificación de las variables y sus escalas de medida, ya es posible seleccionar la técnica multivariante más adecuada para el objetivo de análisis. En segundo lugar, una vez seleccionada la técnica multivariante a emplear, es necesario determinar el tamaño muestral mínimo requerido, el método de estimación de parámetros y todos los elementos necesarios para llevar a cabo la recogida de datos. En tercer lugar, una vez recogidos los datos, hay que evaluar el cumplimiento de los supuestos que requiera la técnica multivariante. Por ejemplo, la normalidad multivariante, la linealidad, la independencia, la homogeneidad, etcétera. En cuarto lugar, se estiman los parámetros del modelo multivariante y se evalúa el ajuste del modelo. Por último, si existe

6


un ajuste aceptable, hay que interpretar la relación multivariante especificada en el modelo. Las técnicas multivariantes parten de unas puntuaciones de n unidades de análisis sobre p variables y suelen expresarse de modo compacto en términos matriciales. Por ello, el primer capítulo de esta monografía tiene el objetivo de resumir las nociones básicas sobre álgebra de matrices que es necesario conocer para manejar las técnicas multivariantes. El capítulo 2 se dedica a la definición de distribución multivariante, marginal y condicional y en particular a la distribución normal multivariante pues muchas de las técnicas multivariantes asumen que los datos siguen una distribución normal. La principal razón es que la distribución normal multivariante es mucho más sencilla de manejar matemáticamente que otras distribuciones multivariantes. No obstante, cuando los datos no son normales, se pueden llevar a cabo transformaciones para que se aproximen a la normalidad y utilizar diferentes técnicas de estimación de parámetros. Resumir todas las técnicas multivariantes que aparecen en la figura 1 excedería los objetivos de una obra de esta colección. Por esta razón se ha optado por elegir una técnica que estudie las relaciones de dependencia y otra que estudie las relaciones de interdependencia. Dentro de las del primer grupo se ha seleccionado la regresión múltiple por ser una de las técnicas más empleadas en contextos aplicados. Dentro de las del segundo grupo se ha seleccionado el análisis factorial por su relevancia especialmente en la psicometría. Asimismo, se introduce brevemente al lector en el análisis de componentes principales, pues su similitud con el análisis factorial hace que a menudo ambas técnicas se confundan. De este modo, en el capítulo 3 se expone el análisis de regresión múltiple, en el capítulo 4 el análisis de componentes principales y en el capítulo 5 el análisis factorial exploratorio. No se entra en la descripción del análisis factorial confirmatorio puesto que puede consultarse en la monografía de Ruiz (2000) de esta misma colección. El manejo de las técnicas multivariantes con amplias muestras de sujetos sería impensable sin la ayuda de los ordenadores personales. Existen diversos paquetes de software estadístico que permiten implementar con facilidad los complejos cálculos que demandan este tipo de técnicas. Por ejemplo el SPSS, el SAS, el STATGRAPHICS, el SYSTAT, el S-PLUS, etc. Aquí se hace referencia tan ysólo al SPSS MATRIX para con matrices ejecutar caday su unalenguaje de las técnicas que se realizar exponen,operaciones aunque la mayoría de los programas ofrecen formatos similares. Existen diversos manuales sobre el análisis multivariante. La mayoría en inglés, aunque algunos han sido traducidos al castellano. Por ejemplo el de Hair et al. (1998) que es un manual sencillo y orientado más a la aplicación

INTRODUCCI N

7

de las técnicas que a su formulación teórica. Otros manuales más teóricos son el manual clásico de Maxwell (1977), el de Dillon y Goldstein (1984), el de Anderson (1984) y el de Johnson y Wichern (2002). Este último es especialmente recomendable pues combina formulaciones matemáticas con explicaciones sencillas y ejemplos aplicados. Dentro de la disciplina de la estadística y las matemáticas también se han publicado diversos manuales sobre el análisis multivariante. Por ejemplo el de Arnold (1981), Carroll (1987), Krzanowski (2000), Mardia, Kent y Bibby (1997), Neil (2002), Rencher,hay (1995) Takeuchi, Yanaique y Mukherjee (1982).monográfica Además decada los citados, otros ymuchos manuales abordan de forma una de las técnicas multivariantes y se irán citando a medida que se haga referencia a cada una de ellas en el capítulo correspondiente.

Capítulo 1. Nociones básicas de Álgebra de Matrices En este capítulo se pretende sintetizar los contenidos de álgebra de matrices básicos para una compresión adecuada de las técnicas de análisis multivariante. Para más detalle, se pueden consultar diferentes manuales. Por ejemplo, el de Basilewsky (1983), Namboodiri (1984), Searle (1982) y Winter (1992). Y en castellano el de Amón (1991) y el de Herstein y Winter (1989).

1. Conceptos previos Definición y tipos de matrices

Una matriz es una forma de organizar los datos en filas y columnas que proporciona un punto de partida útil para su descripción (Searle, 1982). Supóngase que se tienen las siguientes puntuaciones sobre el rendimiento de 3 sujetos en cuatro pruebas de atención: Pruebas de atención Sujetos: 1 2 3 4 1 12 15 17 19 2 15 7 9 10 3 11 13 15 15 Los números que aparecen en la tabla pueden escribirse del siguiente modo: 12 15   11

15 7 13

17 9 15

19  10  15 

Donde las filas contienen a los sujetos y las columnas a las pruebas sobre atención. Por ejemplo, la segunda fila y tercera columna contiene al número 9 que representa la puntuación del sujeto 2 en la prueba 3. Esta disposición rectangular de los datos en n filas y p columnas se denomina matriz de orden n x p y se representa mediante:  a11 a  21   A n p

a12 a 22



a1 j a2 j















aij











a nj



  a i1 a i 2      a n1 a n 2



a1 p  a 2 p    aip     a np 

Las matrices se designan aquí mediante letras mayúsculas en negrita (en el ejemplo: A) y sus elementos mediante letras minúsculas con subíndices


10

(aij, donde i son las filas y j las columnas). Los elementos en los que i = j se denominan elementos diagonales (aii). Una forma más abreviada de expresar una matriz es mediante: A = [ a]ij

i = 1, 2, ..., n y

para

j = 1, 2, ..., p

(1.1)

El tamaño y tipo de elementos de la matriz hace que sea posible distinguir entre varios tipos de matrices: sólo de(vector n filasfila). y una ymatrices de una que fila yconstan p columnas Se expresan con letras minúsculas en negrita.

a. Vectores columna y fila: columna (vector columna)

Ejemplo 1. Vector columna:

a

5   2   4 

Ejemplo 2. Vector fila: a '  5 2 4  b. Matriz rectangular: es aquella en la que se cumple que n 

Ejemplo 3:

A 2 3 =

p.

2 3 5   0 4  1  

c. Matriz cuadrada: es aquella en la que se cumple que n = p.

Ejemplo 4:

B =

 1 2  7

tr(B) = 1 + 5 + 9 = 15

 2  10  9 

3 5 6

En las matrices cuadradas se puede calcular la traza de la matriz que es la suma de los elementos de la diagonal principal. Es decir: tr(A) =  aii. En el ejemplo 4, es 15. que se cumple aij = aji. O lo que es lo multivariante es frecuente trabajar con matrices simétricas. Por ejemplo, la matriz de covarianzas (S) y la matriz de correlaciones (R):

d. Matriz simétrica: matriz en la mismo, A = A'. En el análisis

S



 s12   s 21

s12 s 22



   s p1



 

s p2



s1 p   s2 p 

;

 s 2p  

R

1 r   21    r p 1

r12 1





 

rp2



r1 p  r2 p    1 

e. Matriz nula: se denomina matriz 0 pues todos sus elementos son 0.

Ejemplo 5:

0=

0 0 0  0 0 0 

NOCIONES B SICAS DE LGEBRA DE MATRICES

11

f. Matriz diagonal: es aquella en que todos los elementos, excepto los de la

diagonal principal, son nulos. Por ejemplo: Ejemplo 6:

 s12 0 0 

D =

g. Matriz escalar (K):

 ;  s 32 

0

0 0

s 22 0

D

1/ 2

=

 s1 0   0

0 s2 0

0 0  s 3 

matriz diagonal en la que todos los elementos no

nulos son iguales. Ejemplo 7:

A =

3 0   0

0 3 0

h. Matriz identidad (I):

0 0  3 

matriz diagonal cuyos elementos de la diagon

principal son 1.

2. Operaciones con matrices 2.1. Cálculo de la traspuesta de una matriz

La traspuesta de una matriz A de orden n x p se calcula intercambiando las filas y las columnas de forma que se obtiene la matriz A' de orden p x n donde la i-ésima fila de A es la j-ésima columna de A'. A continuación se presenta un ejemplo: Ejemplo 8:

A

3 2  ; 0 1 

A'

3 0 2 1 ;  

3 2 ( A ' )'     A. 0 1 

Se verifica que: tr(A) = tr(A'). 2.2. Suma de matrices A + B = [aij + bij]

para i = 1, 2, ..., n y

j = 1, 2, ..., p

(1.2)

Para sumar dos matrices es necesario que sean conformables, es decir, que tengan el mismo orden. Ejemplo 9:

A

5  4

2  y 1

B

3  4

2 ; 6

A



B

8  8

4   7 

Además de las propiedades asociativa y conmutativa, se cumplen las siguientes: (A + B)' = A' + B' tr(A + B) = tr(A) + tr(B)


12

2.3. Multiplicación por un escalar

Según lo visto en la suma de matrices puede establecerse que: A + A = [aij] + [aij] = [2 aij] = 2A Extendiendo esto al caso en que k es un escalar: kA = Ak = [kaij]

(1.3)

Por tanto, cada elemento de la matriz A queda multiplicado por k. Ejemplo 10:

A

3   1

2 5 

y k  2;

3 kA  2  1

2 6  5   2

4 10 

2.4. Producto de dos matrices

Para entender como se multiplican dos matrices, previamente se necesario introducir el concepto de producto de vectores, también llamado producto interno de vectores. El producto interno de vectores, |ab|, es el número que resulta de la suma de los productos cruzados de los elementos de a y b. Es decir: |ab| = aib;i Donde: |aa| = |a| = a'a =  ai2 (1.4) Ejemplo 11:

a

a

b

1   0  y 1 

 2 2   1  ; ab  a ' b  1 0 1  1   1( 2)  0(1)  1(3)  5.  3  3  1   1 0 1   0   1 2  0 2  1 2  2 .  1  2  2 1 3   1   2 2  1 2  3 2  14 .  3  b

La longitud de un vector se obtiene calculando la raíz cuadrada de su producto interno. Es decir: ||a|| =|a|1/2 = (a'a) 1/2 En el ejemplo 11: ||a|| = 2 ;

(1.5)

||b|| = 14 .

Se denomina vector unitario o normalizado (u) aquel cuya longitud es la unidad: a (1.6) u  ; donde: =u1'u a

En el vector a del ejemplo 11:


13

1/ 2  1 1/ 2 1      . Y se puede comprobar que: u' u  1/ 2 0 1/ 2   0   1. 0  0  u 2    1/ 2  1 1/ 2  

Dos vectores son ortogonales si su producto interno es nulo. Es decir: |ab| = 0

(1.7)

Dos vectores son ortonormales si son ortogonales y normalizados. Una matriz es ortogonal cuando todos sus vectores son ortonormales. Es decir: AA' = I

A-1 = A'



(1.8)

Ejemplo 12: Dada la matriz A con vectores a1 y a2:

0.707  0.707  a1 'a1  0.7072  0.7072  1; a2 'a 2  (0.7072 )  0.7072  1 ;  0.707 0.707   | a1 'a 2 |  0.707(0.707)  (0.707)0.707  0

A

Vistos estos conceptos, a continuación se introduce el del producto de dos matrices. Si se multiplican las matrices A x B se obtiene la matriz C, cuyos elementos cij se obtienen de los productos internos |ai' bj|. A y B, éstas deben ser conformables. La ParaA multiplicar matriz ha de tenerlas el matrices mismo número de columnas que de filas tenga la matriz B. De este modo la matriz C contiene el mismo número de filas que A y de columnas que B. Es decir: An x p x Bp x m = Cn x m

Ejemplo 13:

A

AB

23



4   5

C

2 2

2 1

  4       5  

3 2 

B

3 2

2 2  3  1   4  4  2 1  2  1   5  4 

(1.9)

2   1  4 2

1

3 5  2 

3  3  5    2    22    3    19 2  5     2  

28  24 

Nótese que en este caso se verifica la propiedad asociativa (A(BC) = (AB)C) pero no la conmutativa (AB  BA). Como puede verse, en el ejemplo 13: A2x3 x B3x2 = C2x2; mientras que: B3x2 x A2x3 = C3x3.


14

 2  2 3  4 2 3    BA  C33  1 5    5 1 2   1  4 2  4 

 4 2  3     2  3   5   1  4 2  5    1 5   5  1   4 2   2    4  2   5   1

 3  2 3   2  23 7 12  3   1 5     29 7 13  2  26 10 16   3   4 2   2 

Del mismo modo: a'a

1   1 2    5 2

y 

aa ' 

1 1 2  2 1 2  2 4    

Otras propiedades del producto de matrices son las siguientes: AI = IA = A A(B+C) = AB + AC A2 = A A (si A es cuadrada). tr(AB) = tr(BA) (si AB es cuadrada). |AB| = |A| |B| (si A y B son cuadradas y del mismo orden). (ABC)' = C' B' A'

(1.10)

2.5. Cálculo del determinante de una matriz A. Se Un determinante, |A|, productos es un polinomio los elementos de la matriz calcula sumando ciertos de los de elementos de A según unas reglas. El determinante sólo puede definirse en matrices cuadradas.

En matrices 2 x 2 su cálculo es muy sencillo. Ejemplo 14:

A

3  1

2 ; 4 

|A| = 3(4) – 2(1) = 10

En matrices 3 x 3 su cálculo puede realizarse mediante ‘la regla de Sarrus’. El procedimiento consiste en ampliar la matriz añadiendo las dos primeras columnas de la matriz a la derecha. Como muestra el ejemplo 15, el determinante se obtiene sumando los productos de la diagonal principal y restando los productos de la otra diagonal. 4 1 2

Ejemplo 15: A  2 5 1 3 6 2

4 1 2 4 1 | A | (4)(5)(2)  (1)(1)(3)  (2)(2)(6)  2 5 1 2 5  (2)(5)(3)  (4)(1)(6)  (1)(2)(2)  9. 3 6 2 3 6

Si el determinante es distinto de cero (|A|  0), se dice que la matriz es regular, como las matrices de los ejemplos 14 y 15. Si el determinante es cero (|A| = 0), se dice que la matriz es singular.


15

Para obtener determinantes de matrices n x n se suman los n! productos de los elementos de la matriz teniendo en cuenta que cada producto sólo puede contener un elemento de una fila o columna de la matriz (para más detalle, ver Searle, 1982, pág. 89). 2.6. Cálculo de la matriz inversa

La inversa de una matriz, se denota por A-1 y es aquella tal que AA-1 = A A = I. Sólo puede obtenerse para matrices cuadradas y regulares mediante la fórmula: 1 A 1 A  A | A| -1

Donde AA es la matriz adjunta de A'. Esta matriz contiene los elementos Aij (los adjuntos) que se calculan mediante la expresión: Aij = (-1)i+j Aij. Donde Aij es una matriz de orden n – 1 que se obtiene eliminando la fila i y la columna j de A', y Aij es su determinante. A continuación se presentan dos ejemplos: Ejemplo 16:

A'

3 2 

1 ; 4 

1 1  4  2   0 .4  0 .2  AA   |A| 10   1 3    0.1 0.3 

A 1



6 2 3 2 3 6

1 2 4 2 4 1

Ejemplo 17:  5 4 2 3   1 ;    2 A'  1 5 6 A   A   2 1 2  1  2  5  A 1 

1 |A|

AA

6 2 3 2 3 6

1 2 4 2 4 1

5  1 2 1  2 5 

 4 10 9  1 2 0 3  21 18

 4 10  9  0.44 1.11  1 1    1 2 0     0.11 0.22 0  9  3  21 18    0.33  2.33 2 

Si A es simétrica A-1 también lo es. Además, si A y B son cuadradas y del mismo orden: (A')-1 = (A-1)' -1

-1

(AB) = B A

-1

3. Usos de matrices y determinantes

(1.11)

3.1. Sistema de ecuaciones lineales

Las operaciones que se han visto en el anterior apartado son necesarias para resolver un sistema de ecuaciones lineales del tipo:

16


a11 x1  a12 x2  ...  a1 p x p  c1   a21 x1  a22 x2  ...  a2 p x p  c2  Matricialmente:  Ax c;    an1 x1  an2 x2  ...  anp x p  c p 

a11 a12 a a  21 22    an1 an2

   

a1p   x1   c1  a2 p   x2  c2              anp  x p  c p 

Donde A es la matriz de coeficientes, x el vector de incógnitas y c el vector de términos independientes. El sistema lineal A x = c puede resolverse mediante la regla de Cramer: x = A-1 c

Para emplear esta regla es necesario que la matriz A sea regular. El sistema puede ser compatible (con solución) o incompatible (sin solución), determinado (con solución única) o indeterminado (con varias soluciones). El siguiente ejemplo muestra el caso general; es decir, el de sistemas de ecuaciones lineales con solución única: Ejemplo 18: 2 x 1  3 x 2  7  ;  2 3   x 1  3 x 1  x 2  5   3  1  x 2  x  A -1c;

7 

  ; 5 

A   11

 x1  1   1  3  7  1   22   2   x    11   3 2   5    11   11   1   2       

El ejemplo 18 se trata de un sistema no homogéneo donde A es regular. Considérese este otro ejemplo: Ejemplo 19: 3 x1  2 x 2  4

 ; 15 x1  10 x 2  20 

3 2 15 10   

 x1   4   x    20  ;  2  

A

 0.

A

1

no existe.

En el ejemplo 19, la matriz A es singular y la segunda ecuación es redundante, simple múltiplo de la primera. Esto implica que el sistema puede tener varias soluciones o ser incompatible. Si por ejemplo se consideran las siguientes ecuaciones: Ejemplo 20: x 1  x 2  2   3 x1  3 x 2  4

En el ejemplo 20, si una ecuación es cierta la otra no. Por tanto, el sistema es inconsistente. En síntesis, el cuadro inferior muestra un resumen de las soluciones a diferentes tipos de sistemas de ecuaciones lineales (para más detalle véase Searle, 1982; págs. 227-256):


Ecuaciones lineales: A x = c Sistema no homogéneo con A  0 0 c con A = 0 Sistema homogéneo con A  0 c=0 con A = 0

17

Solución: Única Varias o solución incompatible Trivial Varias (y la trivial)

3.2. Rango de una matriz

El rango una matriz, simbolizado mediante que r(A),existen es el en número de vectores (fila ydecolumna) linealmente independientes la matriz A.(1) r(A) es siempre un número positivo igual o menor al número de filas ( n) o columnas (p) de A. Es decir: 0  r(A)  min(p, n) Propiedades: (1). Si A es una matriz cuadrada su rango no puede exceder su orden: r(A)  p. (2). Si A es una matriz regular (| A|  0) de orden p, entonces r(A) = p. (3). Si A es una matriz singular (| A| = 0) de orden p, entonces r(A) < p. (4). r(A) = r(A'). (5). r(A'A) = r(AA') = r(A) = r(A'). El rango es una de las características más importantes y útiles de una matriz y en álgebra de matrices a menudo se utiliza más incluso que el determinante. 3.3. Autovalores

Si A es una matriz cuadrada de orden p y  un escalar tal que:

A –  I = 0

(1.12)

 es el autovalor, valor propio o raíz latente de A.

A –  I = 0 (también denominada ecuación característica de A) es una ecuación polinomial de  de orden p; es decir con p raíces ( 1,  2, ...,  p). Ejemplo 21:

1 4 ; 9 1

A

A

 35 ;

A I



1  4  (1   )(1   ) - 36  9 1 

 2  2  35  0;   2  42 140   1  75  2 (1)

Téngase en cuenta que el número máximo de columnas independientes es igual al número máximo de filas independientes. Para saber si un conjunto de vectores es linealmente independiente o dependiente se puede aplicar la fórmula (1.7). También puede saberse calculando el determinante de A. Si A  0, hay independencia y si A= 0, dependencia.


18 Ejemplo 22:

A

1 1 0 0 2 0;   1 1 0

A  0; A I 

(1) 1 0 ( 2 ) 0 0 0 0 (2) 0  (1) 1  1  1   1 1 

1  2  (1 )(2  )()  3  32  2  2  3  2  0; 2 1 3  0 Propiedades de los autovalores:

1. i = tr(A) ...................... En el ejemplo 21 se demuestra que 7 – 5 = 1 + 1 2. i = A  ....................... En el ejemplo 22 se demuestra que (2) (1) (0) = 0 3. Si A  = 0, al menos un i es 0 ............ En el ejemplo 22 A  = 0 y 3 = 0 4. r(A) es el número de i distintos de 0 ... En el ejemplo 21: r(A) = 2 3.4. Autovectores

Siendo A una matriz cuadrada,  un escalar y x un vector no nulo, si: Ax=x

(1.13)

Entonces x es un autovector, vector propio, característico o latente de A. Ax=x

 (A- I) x = 0 es un sistema homogéneo. Tendrá soluciones

distintas de 0 si A –  I = 0. Es decir, si  es un autovalor de A. Hay tantos autovectores independientes de A como autovalores. Los autovectores para el ejemplo 21 son: A

1 4   ; 9 1 

A

  35 ;

A

  7   I  0;  1   2  5

1er autovector: (A   I)x  0;  6 4  x11   0;  6x11  4x21  0;  x11  2 ;   1 1  9  6 x   9x11  6x21  0  x21  3    21  2º autovector: (A   I)x  0; 6 4  x12   0; 2 2 9 6 x     22  Autovectores normalizados: x '1 x 1  13 ; Matriz de autovectores normalizados:

U

6x12  4x22  0 x12  2 ;  9x 6x 0 ; x  12  22   22  3 u1



 0 . 56   0 . 83

x1 x1

2  3

x1  

x2

2    3

  0 . 56  ; u2   0.56   0.83  0 . 83 

0 . 56   0 . 83 


19

Propiedades de los autovectores: 1. Si A es simétrica sus autovectores son ortogonales. 2. Dada A (simétrica),  (matriz diagonal que contiene los autovalores) y U (matriz de autovectores normalizados): A = U U' A-1 = U -1U'  = UAU' 3.5. Ejemplo resuelto

Sistema homogéneo: 2 x1  4 x 2  0; 2 4   x1   0 . A   4; r ( A)  2 vectores independientes  4 x1  6 x 2  0 4 6   x 2  0   x1  1  6  4  0 0  x  A 1c;       . Solución única (trivial) 4  4 2  0 0   x2 

Autovalores: AI 

(2   ) 4 8  64  16  1  8.47  (2  )(6  )  16  2 8 40; i   4 (6  ) 2  2  0.47

Se comprueba que: 1. 1 + 2 = 8.47 + (-0.47) = 8 = tr(A). 2. (1) (2) = 8.47(-0. 47) = -4 = A . 3. Todas las raíces son no nulas. 4. Hay dos raíces distintas de 0: r(A) = 2.

Autovectores: 1º: (A  I)x  2 8.47 1

1

 4 

x21 

4   x11   6.47 4   x11  0   6.47x11  4x21  0   ;  6  8.47  x21   4  2.47 x21  0  4x11  2.47x21  0

6.47 x  1.62 x11 ; 4 11

2º: (A  I)x  2  0.47 2 2  

4

x12  

 x '1  1 1.62 ; x 1' x 1  1 . 90   u '1  0 . 526 0 . 851 

4   x12  2.47 4   x12  0 2.47x12  4x 22  0   ;  6  0.47  x 22   4 6.47  x 22  0 4x12  6.47x 22  0

4 x  1.62x22 ;  x ' 2   1 .62 1; x ' 2 x 2  1 .90 2.47 22  u ' 2   0 .851 0 .526 

Como A es simétrica, se comprueba que: U  U' 

0   0.526 0.851  2 4  0.526  0.851 8.47  0.851 0.526   0  0.47    0.851 0.526    4 6   A      

UAU' 

0  0.526  0.851  2 4  0.526 0.851 8.47  0.851 0.526   4 6   0.851 0.526    0  0.47        


20

3.6. Formas cuadráticas

Siendo A una matriz cuadrada y simétrica y x un vector de p elementos no nulos, se llama forma cuadrática a la expresión: Q  x' Ax x1 x2



a11 a12 a a xp   21 22    ap1 ap2

   

a1p   x1  a2 p   x2   ai1xi x1  ai2 xi x2 ... aipxi xp        app  xp 

  aij xi x j   aii xii2   aij xi x j   aii xii2   (aij  a ji ) xi x j i

j

i

i j

i

(1.14)

i j

Ejemplo para A 2 x 2: Q  x' Ax  x x   a11 a12   x1   a x 2  (a  a ) x x  a x 2 1 2  12 21 1 2 22 2    11 1 a21 a22   x2  Como se observa, x' A x es una función cuadrática de las x e incluye todos los elementos posibles de segundo orden. Propiedades: 1. Para x = 0 todas las formas cuadráticas Q son 0. 2. Si Q > 0 para todo x  0, entonces x' A x (y por tanto A) es definida positiva. Donde A es regular, r(A) = p y todos sus autovalores son positivos. 3. Si Q  0 para todo x, entonces A es semidefinida positiva. Donde A es singular, r(A) < p y sus autovalores son positivos con uno al menos nulo. 4. A sería definida negativa (r(A) = p y sus j < 0) si –Q es definida positiva y semidefinida negativa (r(A) < p y sus j  0) si –Q es semidefinida positiva. 5. Si A es definida positiva con autovalores 1  2 …  p  0 y autovectores a1, a2, ..., ap, entonces Q es máxima para el máximo valor de  con la restricción x'x = 1. Es decir: Q = x' A x = x' i x = i x'x =  i (1.15) Ejemplo 23:

A

1 0  2 2 : definida positiva  ; Q  x' Ax  x1  x 2 ; Q  0 0 1 

Obsérvese que: |A| = 1; r(A) = p = 2. AI

Ejemplo 24:

 0  (1   )(1   )  0;     1 .  1 1 2 0 1 

 1 -1 2 2 2 : semidefinida positiva ; Q  x1  x2  2x1 x2  (x1  x2 ) ; Q  0 -1 1 

B

Obsérvese que: |B| = 0; r(B) = 1.

NOCIONES B SICAS DE LGEBRA DE MATRICES B I



21

1  1  (1   )(1   ) - 1   (  2)  0; 1  2;  2  0. 1 1 

Las formas cuadráticas tienen muchos usos en el análisis multivariante.

4. Vectores y estadísticos Los estadísticos descriptivos pueden expresarse mediante vectores. La siguiente tabla resumesulacálculo: forma matricial de algunos estadísticos y de las matrices que facilitan Estadístico

Forma matricial

Puntuaciones diferenciales

1  X i n xi  X i  X

Varianza

s2 

1 x 2 n 1 i

1 1 X  n * X  X  1x ' 1 1 s2  x' x  x n 1 n 1

Desviación típica

s2 

1 x 2 n 1 i

Covarianza

1 sxy  n 1  xi yi

Correlación

rxy 

Media

Matriz de covarianzas Matriz de varianzas

x

 xi y i  x i2  y i2

x'

s

1      n 1

1/2

x

1 s xy  n  1 x' y  x' y

rxy  S



1 n  1 xy xy

(x' x)(y' y) x y



1 X' n 1

 s12  D  0 

Matriz de puntuaciones típicas

Z  XD

Matriz de correlaciones

R

1 / 2

0 

0

 cosxy

X

0    2 sp 

1 0 0   s1   X     1  0 0  s p  

1 1/ 2 1/ 2 Z' Z  D SD n 1

S y R son matrices gramianas pues se basan en sumas de cuadrados y productos cruzados.


22

Las matrices S y R se relacionan mediante las siguientes fórmulas: R = D-1/2 S D-1/2 S = D1/2 R D1/2

(1.16)

Como S y R son cuadradas y simétricas y D1/2 es una matriz regular, las matrices S y R son equivalentes. Ello implica que r(S) = r(R). Ejemplo 25: A continuación se presenta un ejemplo del cálculo de la covarianza y la correlación para dos variables medidas en tres sujetos: Sujeto X1 X2 1 3 6 2 5 6 3 10 12 Matriz de datos (en puntuaciones directas):

Medias:

1 1  1' X   1 n 3 

x'

s 12

s

Covarianza:

2 2

 3 1   5  10

6 6 12

3 5  10

6 6  12 

   1 18  3  

24   6

8

 3 6  6 8   3 - 2       X  X  1x '   5 6 6 8 1 2         10 12   6 8   4 4   3 1 1  x 1   3  1 4    1   13 n 1 2  4   2 1 1 x 2   2  2 4    2   12  n 1 2  4 

Puntuaciones diferenciales:

Varianzas:

1

X* 

s xy 

1 1 x x   3 2 n 1 1 2

Matriz de covarianzas:

Correlación: r  xy

*

1

1 1  3 S  n  1 X ' X  2  2 

x1 x 2 x1 x 2



24  0.96 (5.10)(4.9 0)

 2 4    2   12  4  1 2

 3 4 4    1  4

-2

13 12  - 2   12 12  4 


23

Matriz de correlaciones: R  D 1 / 2 SD 1 / 2

0 .96  1 / 13 0  13 12  1 / 13 0   1   12 12   0    0 .96 1  12 13 0 1 / 1 /       

5. Combinaciones lineales Las técnicas multivariantes se formulan mediante combinaciones lineales por lo que es necesario comprender su definición y propiedades. Considérese la siguiente combinación lineal: y= Xa

La variable aleatoria y es una transformación o combinación lineal de X mediante a. Donde a' = [a1, ..., ap] es un vector de constantes, X una matriz de puntuaciones de n sujetos en p variables (siendo ' su vector de medias). La media y varianza de y es: E (y) = ' a Var ( y ) 

1 1 1 y'y  ( Xa )' ( Xa )  a ' X ' Xa  n 1 n 1 n 1 1  a' X ' Xa  a ' Sa n 1

(1.17)

A continuación se presenta un ejemplo para ilustrar la fórmula (1.17) en el caso en que p = 2: Var (X1 a1 + X2 a2) = Var (X1 a1) + Var (X2 a2) + 2 Cov (X1 a1, X2 a2) = = a12 Var (X1) + a22 Var (X2) + 2 a1 a2 Cov (X1, X2) Como se observa, la varianza de una combinación lineal es una forma cuadrática. En el caso en que a fuese un vector normalizado (donde a' a = 1), la varianza de y queda como:

Var (y) = a' S a = a'

a=

Las ecuaciones de (1.17) pueden generalizarse al caso Y = X A. Donde A es una matriz de constantes de orden n x p, y la media y varianza de Y es: E (Y) = ' A Var (Y) = A' S A (1.18) A continuación se comentan algunas propiedades de las matrices S y R. En primer lugar ambas son semidefinidas positivas. Puesto que toda varianza ha de ser no negativa: Var (X a)  0

para todo a

24


Como Var (X a) = a' S a, entonces S tiene que ser, al menos, semidefinida positiva. S y R son matrices equivalentes pues en las fórmulas que las relacionan en (1.16) la matriz D1/2 es regular. Por tanto, R también es semidefinida positiva. En segundo lugar, puesto que las matrices S y R son equivalentes, el rango de S es el mismo que el de R. Este rango puede ser menor o igual que p. Si r (S) = p, entonces S y R serán definidas positivas pues Var (X a) = a' S a es mayor que cero para todo a  0. Sin embargo, si r (S) < p entonces S y R serán singulares y ello indicará una restricción de linealidad en los componentes de X. Esto implica que existe un vector a  0 tal que X a es igual a una constante. Entonces, Var (X a) = a' S a será cero, indicando que la matriz S es semidefinida positiva en lugar de definida positiva. Para ilustrar este último punto, supóngase que p = 3 y que existe una restricción de linealidad en las tres variables tal que X1 = X2 + X3. Entonces, Var(X1 - X2 - X3) = 0 y el vector a' = [1, -1, -1]. En este caso, una de las tres variables es redundante y por tanto la dimensionalidad es 2 en lugar de 3. Esto se refleja en el rango de S que también será 2. Según esta propiedad, el rango de S es un indicador útil para establecer la dimensionalidad del problema, siendo [p – r(S)] el número de restricciones lineales independientes en los componentes de X. De este modo, cuando r (S) < p se dice que los componentes de X son linealmente dependientes. Ejemplo 26: Sean las variables X1 y X2 y su matriz de covarianzas

S

  4 3 .  3 9

Si se forman las combinaciones lineales Y1 = X1 + X2, Y2 = X1 - X2, la matriz de covarianzas para Y es: 1 1   4 3  1 1   19  5  Var( Y )  A ' SA       1 - 1  3 9  1  1   5 7 

Y la matriz de correlaciones: R

1/ 19  0.43  0   19  5  1/ 19 0   1  D 1 / 2 SD 1 / 2      1  1/ 7    5 7   0 1/ 7    0.43  0

6. El álgebra de matrices y el lenguaje MATRIX del SPSS Las operaciones con matrices son complejas. Existen diversos paquetes informáticos que evitan su cálculo a mano. A continuación se introduce el lenguaje MATRIX del programa SPSS, uno de los más empleados en las ciencias sociales. El lenguaje MATRIX no se encuentra en los menús desplegables del programa SPSS. Para utilizarlo es necesario acudir a ventanas de sintaxis desde donde se escribe la operación que se desea realizar y se ejecuta.


25

Dependiendo de la sintaxis ejecutada, los resultados se muestran en el editor de datos o en el visor de resultados del SPSS. Siempre que se realice una sesión con el lenguaje MATRIX hay que empezar con el comando MATRIX A. y terminar con el comando END MATRIX. Entre medias, se incluyen otros comandos que definen las operaciones que el procesador del SPSS ha de ejecutar. Antes de entrar en esos comandos, se verá cómo definir una matriz en lenguaje MATRIX. Los elementos de la ymatriz entre corchetes ({ }), las filas se separan mediante punto comase( ;)introducen y los elementos de la fila mediante comas (,). Ejemplo 27: La sintaxis y los resultados para definir a la matriz: A  1 3 es: 2 5  

MATRIX

Run MATRIX procedure:

A.

A

COMPUTE A  {1, 3; 2, 5} .



PRINT A. END MATRIX.

1

3

2

5

- - - - - - END MATRIX - - - - -

Como se observa, para definir la matriz A se ha utilizado el comando COMPUTE y para que muestre los resultados el comando PRINT. A continuación, se muestran algunos comandos para obtener operaciones tan sencillas como la traspuesta, la inversa, el determinante y la traza de la matriz A: Run MATRIX procedure:

MATRIX

A

A. COMPUTE A = {1, 3; 2, 5} . COMPUTE B = TRANSPOS (A) . COMPUTE C = INV (A) . PRINT A . PRINT B . PRINT C . PRINT DET (A) . PRINT TRACE (A) . END MATRIX.

1 2

3 5

1 3

2 5

-5 2

3 -1

B



C

DET(A) -1 TRACE(A) 6 ---- END MATRIX ----

Los comandos de las operaciones más usuales con matrices se resumen en el siguiente cuadro:


26 ABS (A) COS (A) DET (A) EVAL (A) EIGEN IDENT (n, p) INV (A) MAKE (a, b, c)

Valores absolutos de los elementos de la matriz A Cosenos de los elementos de la matriz A Determinante de la matriz A Autovalores de la matriz A (si A es simétrica) Autovectores de una matriz simétrica Crear una matriz identidad de orden n x p Inversa de la matriz A Crear una matriz de orden a x b con todos los elementos iguales a c

MDIAG(A) (A) MMAX MMIN (A) MSSQ (A) NCOL (A) NROW (A) RANK (A) SIN (A) SOLVE (A, B) SQRT (A) SSCP (A) TRACE (A) TRANSPOS (A)

Crear unaelemento matriz diagonal con A los elementos del vector A Máximo de la matriz Mínimo elemento de la matriz A Matriz de suma de cuadrados de los elementos de A Nº de columnas de la matriz A Nº de filas de la matriz A Rango de la matriz A Senos de los elementos de la matriz A Solución al sistema de ecuaciones lineales AX = B (si A 0) Raíces cuadradas de los elementos de la matriz A Sumas de cuadrados y productos cruzados de los elementos de A Traza de la matriz A Traspuesta de la matriz A

A continuación se muestran ejemplos de algunas operaciones con matrices (suma, producto, determinante y rango): MATRIX A. COMPUTE A = {4, 2; 3, 5} . COMPUTE B = {1, 3; 4, 7} . COMPUTE C = A + B . COMPUTE D = 2 * A . COMPUTE E = A * B . COMPUTE F = B * A . PRINT A . PRINT B . PRINT C . PRINT D . PRINT E . PRINT F . PRINT DET (A) . PRINT RANK (A) . END MATRIX.



Run MATRIX procedure: A 4 2 3 5 B 1 3 4 7 C 5 5 7 12 D 8 4 6 10 E 12 26 23 44 F 13 17 37 43 DET(A) 14 RANK(A) 2 ----- END MATRIX ----


27

También puede resolverse el ejemplo 25 del apartado 4 con el lenguaje MATRIX. En este caso A es la matriz X*, B la matriz 1x ' , C la matriz X, D la matriz de covarianzas, G la matriz D1/2 e I es la matriz R. La sintaxis y resultados obtenidos son los siguientes: MATRIX


A.

A

COMPUTE A = {3, 6; 5, 6; 10, 12}. COMPUTE B = {6, 8; 6, 8; 6, 8}. COMPUTE C = A - B . COMPUTE D = 1/2 * SSCP (C). COMPUTE E = SQRT (D). COMPUTE F = {3.61, 3.46}. COMPUTE G = MDIAG(F). COMPUTE H = INV (G). COMPUTE I = H * D * H . PRINT PRINT PRINT PRINT PRINT PRINT PRINT

A. B. C. D. E. F. G.

PRINT H . PRINT I . END MATRIX.

3 5 10

6 6 12

B 6 6 6

8 8 8

C



-3 -2 -1 -2 4 4 D 13 12

E

12 12

3.605551275 3.464101615

3.464101615 3.464101615

3.610000000

3.460000000

3.610000000 .000000000

.000000000 3.460000000

.2770083102 .0000000000

.0000000000 .2890173410

.997536851 .960722463

.960722463 1.002372281

F

G

H

I

------ END MATRIX -----

A continuación se muestra la solución del ejemplo resuelto del apartado 3.5 mediante el lenguaje MATRIX. La sintaxis y resultados son los siguientes:


28 MATRIX

Run MATRIX procedure: A

A.

2 4

COMPUTE A = {2, 4; 4, 6}. COMPUTE B = {0; 0} . COMPUTE C = SOLVE (A, B). CALL EIGEN (A, D, E).

B 0 0 C



PRINT A . PRINT B . PRINT C . PRINT D . PRINT E. PRINT DET (A). PRINT TRACE (A).

4 6

0 0 D .5257311121 .8506508084

.8506508084 -.5257311121

E 8.472135955 -.472135955 DET(A) -4.000000000

END MATRIX.

TRACE(A) 8

B,

Donde A es una matriz simétrica, C es la solución al sistema lineal A X = D es la matriz U de autovectores normalizados y E es el vector de

autovalores de la matriz A. Por último, también es posible leer matrices desde un fichero. Por ejemplo, si se tiene la siguiente matriz de correlaciones para seis variables en el fichero "C:\datos.txt": 1.0000 0.6200 0.1700 0.0900 0.2700 0.7900

0.6200 1.0000 0.1200 0.1300 0.1300 0.5800

0.1700 0.1200 1.0000 0.0200 0.1700 0.4700

0.0900 0.1300 0.0200 1.0000 0.1200 0.0800

0.2700 0.1300 0.1700 0.1200 1.0000 0.5800

0.7900 0.5800 0.4700 0.0800 0.5800 1.0000

Lo primero es redactar la sintaxis para que el SPSS lea el fichero. En este caso: MATRIX DATA VAR x1 x2 x3 x4 x5 x6 /FILE="C:\datos.txt" /FORMAT FULL /CONT CORR /N=200 .

Al ejecutar la sintaxis, el resultado aparece en el editor de datos del SPSS:


29

Como se observa, el SPSS ha leído la matriz R y el nombre y tipo de variables. Con este fichero abierto en el editor de datos, se puede operar con la matriz R. Por ejemplo, la sintaxis y resultados para obtener los autovalores y el rango de la matriz R es la siguiente: (2) MATRIX .


GET AEIGEN /FILE = * .B, C). CALL (A,

RANK(A) 6

PRINT C. PRINT RANK(A). END MATRIX .



C 2.715868170 1.029760178 .988111734 .814820915 .371076909 .080362094 ------ END MATRIX -----

El lenguaje MATRIX además de ser útil para llevar a cabo operaciones con matrices, también permite ejecutar análisis multivariantes partiendo de la matriz de correlaciones o de la matriz de covarianzas. En los capítulos 3, 4 y 5sintaxis se exponen tres técnicas de análisis multivariante y su correspondiente en el lenguaje MATRIX. (2)

Antes de ejecutar esta sintaxis, para que A sea una matriz cuadrada, es necesario borrar las dos primeras columnas y la primera fila del editor de datos, pues contienen el nombre, el tipo de variable y el N, respectivamente.


30

7. Ejercicios 1.

Sea la matriz

A

7 0 0    0 7 0   0 0 7 

a) ¿Es esta matriz al mismo tiempo identidad, cuadrada, diagonal, escalar simétrica? b) y¿Es cierto que A-1 = A? c) ¿Qué orden debería tener un vector fila que pre-multiplica a la matriz A para que sean conformables? 2.

Si A es una matriz escalar de orden 2 y cada uno de sus elementos diagonales vale k, siendo k  0, obtenga cuanto vale k sabiendo que tr (A) = A.

3.

Encuentre el valor omitido del vector z sabiendo que los vectores: x'  1 1 0 , y'  0 1 2 , z '  0 ? 1 son linealmente dependientes.

4.

Sean

A

 1 1 , B = A-1, C = B-1. Obtenga la traspuesta, el determinante    1 1

y el rango de C.  1 0.20 , ¿es posible que su matriz de autovalores sea   0.20 1  0 ? 1 . 20  0 1 . 20  

5.

Siendo

6.

Obtenga el autovalor 1 de la matriz

A

a b cuyo autovector asociado  1 1

A

es 1 . 2  

7.

A es singular y de orden 3. Sus autovalores son 1 = 3, 2 = -1 La y 3matriz = ?. Obtenga cuanto vale el tercer autovalor de A.

8.

Sea la matriz

4 a , calcule el valor de a sabiendo que 1 = 5, 2 = 1.  3 2

A

NOCIONES B SICAS DE LGEBRA DE MATRICES 9.

31

Las puntuaciones de 5 personas en 2 pruebas aparecen en la matriz X*:

X*

11 10  10 10     11 8    9 6  9 6 

Obtenga la matriz X, el vector x ' , la matriz de varianzas-covarianzas y la de correlaciones 10.

Suponga que tres variables aleatorias, X1, X2 y X3 son independientes con varianza 1. Sea Y1 = X1 + X2 + X3, Y2 = X1 - X2 e Y3 = X1 - X3. Calcule las matrices de correlaciones y covarianzas para Y, donde Y' = [Y1, Y2, Y3].

11.

Indique la sintaxis que tendría que introducir en el lenguaje MATRIX del SPSS para resolver los ejercicios 4 y 9.

Capítulo 2. La Distribución Normal Multivariante 1. Concepto de distribución multivariante, marginal y condicional El concepto más básico del análisis multivariante es el de la distribución de probabilidad multivariante. Se asume que el lector conoce la definición de variable aleatoria y modelos de distribución de probabilidad (p.e. el modelo normal). Lo que se pretende en este apartado es extender el planteamiento univariante al multivariante. Aunque este capítulo se centra en el caso de las variables continuas, se empieza con el de las discretas pues es más sencillo. Sea x un vector aleatorio definido como una variable aleatoria pdimensional y sean X1, …, Xp variables aleatorias univariantes: x ' = [X1, …, Xp]

La distribución conjunta de x se describe mediante la función de probabilidad conjunta P(x1, …, xp), donde: P(x1, …, xp) = P(X1= x1, …, Xp = xp) Por abreviar nos referiremos a P(x1, …, xp) como P(x). La función P(x) ha de satisfacer condiciones similares a las del caso univariante. Es decir: P (x)  0 para cada x  P (x) = 1 El rango del sumatorio es el de todos los posibles valores del vector x. Es decir, todos los posibles valores de las variables X1, …, Xp. A partir de la distribución conjunta pueden calcularse otros dos tipos de distribuciones, las distribuciones marginales y las condicionales. Supóngase que se está interesado en la distribución de un componente del vector x, denominado Xi, sin tener en cuenta los valores de las restantes variables. Cuando la distribución de una variable se obtiene a partir de la distribución conjunta sumando las probabilidades en las restantes variables, a esto se le denomina distribución marginal. Por tanto, la distribución de probabilidad para Xi puede obtenerse a partir de: P(Xi = xi)=  P(x1, …, xi, …, xp) En este caso el rango del sumatorio son todos los posibles valores del vector x manteniendo constante Xi. Es decir: x1, …, xi – 1, xi + 1, …, xp.


34

Supóngase que el vector tiene dos elementos (X1 y X2) y su distribución conjunta es la siguiente:

P( x )  P ( X 2 | X 1 ) P ( X 1 ) Donde P(X2 | X1) es la distribución de X2 condicionada a un valor de X1 y P(X1) la distribución marginal de X1 (ambos conceptos se describen más abajo). Si la distribución conjunta coincide con el producto de sus distribuciones marginales para todo x, tal que P(x) = P(X1) P( X2), se dice que las variables son independientes. Generalizando para un vector de dimensión p, se dice que sus elementos son independientes si: p

P ( x )   Pi ( x i ) i 1

Si algunas de las variables se fijan a valores constantes, entonces la distribución de las restantes variables se denomina distribución condicional. Téngase en cuenta que la probabilidad condicional para el suceso A dado que ha ocurrido B es: P(A | B) = P(A  B) / P(B). Análogamente, la distribución condicional de una variable aleatoria viene dada por el cociente entre la distribución conjunta y la distribución marginal correspondiente. En caso de que p = 2, la distribución condicional de X1 dado que X2 toma el valor x2, viene dada por:

P( x1 | x 2 )  P( X 1  x1 | X 2  x 2 ) 

P ( x1 , x 2 ) P2 ( x 2 )

Donde P2 (x2) es la distribución marginal de X2. De forma más general:

P ( x1 ,..., x k | x k 1 ,..., x p ) 

P(x) PM ( x k 1 ,..., x p )

Donde PM (xk + 1 ,…, xp) es la distribución marginal de Xk + 1 ,…, Xp . Ejemplo 1: Se lanza una moneda cuatro veces y se define: X1 = número de caras en los lanzamientos 1 y 2 X2 = número de caras en los lanzamientos 2, 3 y 4 Primero, se calcula la distribución conjunta de X1 y X2 y sus marginales:

LA DISTRIBUCI N NORMAL MULTIVARIANTE

X2

0 1/16 2/16 1/16 0

0 1 2 3 Distribución Marginal de X1

1/4

X1 1 1/16 3/16 3/16 1/16 2/4

35 2 0 1/16 2/16 1/16

Distribución Marginal de X2 1/8 3/8 3/8 1/8

1/4

A continuación se obtiene la distribución de X1 dado que X2 = 2. Para ello, se busca en la fila donde X2 = 2 y se normaliza para que las probabilidades sumen 1. Esto es: 1 / 16  1/ 6 P( X 1  0 | X 2  2)  3/8 3 / 16 P( X 1  1 | X 2  2 )   3/6 3/8 2 / 16 P( X 1  2 | X 2  2)   2/6 3/8 En el caso de las variables continuas, la distribución de una variable continua puede describirse mediante la función de distribución o mediante la función de densidad de probabilidad. Análogamente, se pueden definir funciones similares para distribuciones multivariantes continuas. Por ejemplo, la función de distribución conjunta se define mediante:

F (x1, …, xp) = P(X1  x1, …, Xp  xp) Y la función de densidad de probabilidad conjunta mediante la p-ésima derivada parcial  p F ( x1 ,..., x p ) (2.1) f ( x1 ,..., x p )   x1 ...  x p si se asume que F (x1, …, xp) es continua. Como en las variables discretas, nos referiremos más abreviadamente a F(x) para designar a la función de distribución conjunta y a f (x) para designar a la función de densidad de probabilidad conjunta. La función de densidad de probabilidad conjunta ha de satisfacer las siguientes condiciones: 1). f (x)  0 para cada valor de x 2).



 

...



 

f (x) dx1 ... dx p  1


36

Al igual que en el caso univariante, la función de densidad de probabilidad conjunta no es una probabilidad, de hecho puede ser mayor que 1. No obstante, las probabilidades pueden encontrarse integrando sobre el subconjunto requerido del espacio p. Las distribuciones marginales y condicionales pueden definirse fácilmente en el caso continuo. La distribución marginal de la función de densidad de probabilidad de un componente de X, por ejemplo Xi, puede encontrarse a partir de la función de densidad de probabilidad conjunta integrando sobre todas las restantes variables. Es decir:

f i ( xi ) 



 

...



 

f ( x ) dx 1 ... dx i 1 dx i 1 ... dx p

(2.2)

Las variables aleatorias son independientes si la función de densidad de probabilidad conjunta es igual al producto de las funciones de densidad de probabilidad marginales para todo x.

f (x) 

p



fi (xi )

(2.3)

i 1

Las funciones de densidad de distribuciones continuas condicionales pueden obtenerse dividiendo la función de densidad de probabilidad conjunta entre la correspondiente función de densidad de probabilidad marginal. Esta operación es análoga a la del caso discreto. Por tanto, en el caso de que p fuera 2, la función de densidad de probabilidad condicional de X1 dado que X 2 toma el valor x2 es: (2.4) f (x1 | x2) = f (x1 , x2) / f2 (x2) Ejemplo 2: Considérese una distribución bivariante con la siguiente función de densidad de probabilidad conjunta:  2 si 0  x1  x 2  1

f ( x1 , x 2 )   0

En cualquier otro caso

Por tanto, la función de densidad es constante dentro del triángulo como puede verse en la siguiente figura:


37

Para determinar la distribución marginal de X1 y X2, y ver si son variables aleatorias independientes se define la función de densidad de probabilidad marginal de cada variable en un rango de 0 a 1. Aplicando la fórmula (2.2):

f1 ( x1 ) 



1

2 dx 2  2 (1  x1 )

x1

Por tanto,

f ( x1 )  02(1  x1 ) Si 0  x1  1otro caso En cualquier  De forma similar para X2 se tiene que:

f 2 ( x2 ) 



x2 0

2 dx 1  2 x 2

Por tanto,

2 x Si 0  x 2  1 f ( x2 )   2 En cualquier otro caso 0 Aplicando la fórmula (2.3) se observa que las dos variables aleatorias no son independientes ya que: f ( x1 , x 2 )  f 1 ( x1 ) f 2 ( x 2 ) . Supóngase ahora que se desea encontrar la distribución condicional de X1 dado que X2 = 3/4. Como se deriva de la figura anterior, la distribución condicional ha de definirse sobre el rango (0, 3/4). Aplicando la fórmula (2.4) se encuentra que la función de densidad de probabilidad condicional debe ser constante sobre este rango y por tanto:

 4 / 3 Si 0  x1  3 / 4 f ( x1 | X 2  3 / 4 )   En cualquier otro caso 0 Medias, varianzas, covarianzas y correlaciones

Como en el caso univariante, para resumir las distribuciones multivariantes se necesita calcular la media y varianza de cada una de las p variables asi como las covarianzas y correlaciones. El vector de medias  ' = [1, …, p] es tal que i



 E( X i )    xi f i ( x ) dx

La varianza del componente i-ésimo de X es:

(2.5)


38

 Var( X i )  E ( X i2 )   i2      x i2 f i ( x ) dx    i2  

(2.6)

En el caso univariante, suele denominarse i2 mientras que en el multivariante se denomina ii para que sea congruente con la notación de las covarianzas. La covarianza entre dos variables Xi y Xj es: Cov (Xi, Xj) = E [(Xi – i)(Xj – j)

(2.7)

La covarianza entre Xi y Xj se denomina ij. Si i = j en realidad se trata de la varianza de una variable ( ii) por lo que no es necesario definir varianza y covarianza separadamente. La covarianza entre Xi y Xj también puede obtenerse mediante:  ij

 E( X i X j ) - E( X i )E( X j )  









 

xi x j f ( xi , x j )dxi dx j  E( X i )E( X j )

(2.8)

En conjunto para p variables hay p varianzas y p (p – 1) /2 covarianzas. Todos estos indicadores suelen colocarse en una matriz, la matriz de covarianzas: 

  11    21     p 1

 12  22



 1p  2 p 









p2





pp

   

De las ecuaciones (2.7) y (2.8) se deduce que puede expresarse también mediante: = E[(X – ) (X – )'] = E(XX') – ' (2.9) La covarianza es difícil de interpretar descriptivamente porque su valor depende de las unidades de medida de las variables. Para evitar este problema se tipifica y se obtiene la correlación lineal o de Pearson:  ij



 ij  i

j

oscila entre -1 y +1 y proporciona una medida de asociación lineal entre dos variables sencilla de interpretar. ij

Para p variables se dispone de p (p – 1)/2 correlaciones diferentes. Todas ellas suelen presentarse en una matriz, la matriz de correlaciones:


 1     21      p 1

39       1 

 12



1p

1



2p







p2



Se denomina porque es la letra mayúscula griega para rho. Como se ha visto en el capítulo 1, las matrices

y

pueden

relacionarse mediante las siguientes expresiones:  D 1/2 D 1/2 o bien  D -1/2 D -1/2

(2.10)

Donde D1/2 es una matriz diagonal cuyos términos diagonales son 1, 2, …, p. También se ha visto que las matrices y son semidefinidas positivas y se cumple que r( ) = r( ). Ejemplo 3: Calcúlese la media, varianza, la covarianza y correlación para las variables d ejemplo 2. Aplicando la fórmula (2.5) se obtienen las medias para X1 y X2. 1

E( X 1 ) 

1

1 1 1 1 1 1  1 x f ( x) dx   0 1x 2(1  x ) dx  1 / 3 E( X 2 )   x 2 f 2 ( x ) dx 2   x 2 2 x 2 dx 2  2 / 3 0 0 0

Aplicando la fórmula (2.6) se obtienen las varianzas para X1 y X2.  

2 2

( X 2 )  E(X 22 ) - E(X 2 )2

1

 x 2(1- x ) dx  (1/ 3)  1/ 6 1/ 9  1/18   x 2x dx  (2 / 3)  1/ 2  4 / 9  1/18

( X1 )  E(X12 ) - E(X1 )2 

0

1

0

2 1

2 2

2

1

1

2

2

2

Aplicando la fórmula (2.8) se obtiene la covarianza de X1 y X2.  ( X 1 X 2 )  E( X 1 X 2 ) - E( X 1 )E( X 2 ) 

1

x2

0

0

 

x1 x2 2dx1  dx2  2 / 9  1 / 36 

La correlación se obtiene mediante:    12  1 / 36  1 / 2 12  1 2 1 / 18

2. La distribución normal multivariante La distribución multivariante más comúnmente empleada es la distribución normal multivariante. Antes de entrar en su descripción, téngase

40


en cuenta que una variable aleatoria normal X, con media  y varianza 2 tiene la función de densidad:

f ( x) 

2 2 1 e  ( x   ) / 2 2 

(2.11)

y se expresa mediante:

X  N ( ,  ) Si en el vector X las variables X1, …, Xp son variables aleatorias independientes donde Xi  N (i, i), entonces su función de densidad de probabilidad conjunta es simplemente el producto de las correspondientes funciones de densidad de probabilidad marginales. Es decir:

1

f (x )  ( 2 )

p/2

e

p





1 2

p





x  i   i    i 1   i

2

(2.12)

i

i 1

En este caso X' = [X1, …, Xp] tiene media ' = [1, …, p] y matriz de covarianzas:  12  0    0 

0 

2 2

 





0



0  0      2p 

Por tanto, en el caso multivariante se dice que una variable aleatoria pdimensional X sigue la distribución normal multivariante si su función de densidad de probabilidad conjunta tiene la siguiente forma:

f (x) 

1 ( 2 )

p/2

1/ 2

e

1  ( x   )' 2

1

( x  )

(2.13)

La expresión del exponente es la forma cuadrática de la función f(x). -1

definición sea. regular paraseque . Esto es, seaEstauna matriz requiere Como ya ha exista visto, puede no que ser definida que positiva definida positiva. Es importante establecer esta distinción pues si es semidefinida positiva, la distribución de X no posee una función de densidad y se denomina distribución normal multivariante degenerada o singular. Aquí solamente se considera la distribución normal multivariante no singular.


41

Como se observa, la generalización de la ecuación (2.11) a la (2.13) no es obvia. Sin embargo, está claro que la ecuación (2.13) se reduce a la ecuación (2.11) cuando p = 1. La ecuación (2.12) puede re-escribirse en la forma de la ecuación (2.13). Por tanto, el caso de variables normales independientes es un caso especial de la fórmula dada en (2.13). No obstante, los componentes de X generalmente no necesitan ser independientes y por tanto  no tiene por qué ser diagonal, dado quepuede es simétrica y definida . El requisito de quede la seacondición definida positiva concebirse como lapositiva equivalencia multivariante 2 > 0 en el caso univariante. Con esta explicación no se ha demostrado que la ecuación (2.13) defina una distribución apropiada. Lo que sí queda claro es que f (x)  0 para cada x. Además, es posible demostrar (aunque tedioso) que x f (x) dx1 … dxp = 1 para cada y para cada que es simétrica y definida positiva. También es posible demostrar que E(X) = y que Var( X) = es la matriz de covarianza para X. Por tanto los parámetros y tienen una interpretación inmediata y se expresa mediante: X  Np (

, )

Donde p se refiere a la dimensión de X,

al vector de medias y

a la

matriz de covarianzas. A continuación se resumen algunas propiedades de la distribución normal multivariante. 1. Si una variable aleatoria X p-dimensional sigue la distribución normal multivariante, sus distribuciones marginales y condicionales también son normales. Por simplicidad, sólo se incluyen las fórmulas de estas distribuciones en el caso bivariante en el siguiente apartado (para más información consultar Martín Pliego y Ruiz-Maya, 1997; p. 473-480). 2. Otra propiedad debida a Cramer y Wold es que cuando una variable aleatoria X p-dimensional sigue una distribución normal multivariante cada uno de los componentes de X sigue una distribución normal univariante. Por tanto, E(X) = y Var( X) = contienen las medias, varianzas y covarianzas de variables unidimensionales normales univariantes. No obstante, esta condición es necesaria pero no suficiente. Es decir, que las variables unidimensionales sean normales univariantes no implica necesariamente que la distribución pdimensional de X sea normal multivariante.


42

3. Si X  Np (, ), y se forman combinaciones lineales basadas en los componentes de X, éstas también se distribuyen según el modelo normal multivariante. Ejemplo 4: Sea la variable X' = [X1, X2, X3] con distribución normal multivariante de parámetros:

4 2 3   2 9 5  3 5 16

  2 4 5 

A continuación se muestran ejemplos donde se obtienen distintas áreas de probabilidad: a) P(X1  3.5)

X1 tiene la distribución marginal N(2, 2). Para obtener el área que queda a la derecha de 3.5 se consulta la distribución de probabilidad de la normal tipificada (puede verse la tabla 1 del anexo): P(X1  3.5) = P(z  3.5 – 2)/2) = P(z  0.75) = 0.2266 b) P(2X3 – X2  2) Si se denomina Y = 2 X3 – X2, esta nueva variable Y es una transformación lineal de la variable normal bivariante ( X3, X2). Y tiene distribución normal univariante con parámetros: E(Y) = 23 –  2 = (2)(5) – 4 = 6 Var(Y) = 2232 +  22 – (2) (2) 32= (4)(16) + 9 – (4)(5) = 53. Donde (Y) = 7.28 Por tanto, Y  N (6, 7.28). Según la tabla de la normal tipificada: P(2X3 – X2  2) = P( Y  2) = P(z  2 – 6)/7.28) = P(z  -0.55) = 0.2912

3. La distribución normal bivariante Un importante caso particular de la distribución normal multivariante es aquel en que solamente hay dos variables. En este caso se tiene al vector de medias ' = [1, 2] y a la matriz de covarianzas:

 2  1   1 2

 1 2   22

 


43

Desarrollando los términos -1 y   1/2 de la ecuación (2.13) en el caso bivariante, la función de densidad de probabilidad conjunta resultante es:

f ( x1 , x 2 ) 



1 2 1 2 (1   2 )

e

2  x  2 1   1 1   2   x1  1   x2   2    x2   2   2 (1  2 )    1    1    2    2  

(2.14)

Esta expresión depende de cinco parámetros: las dos medias marginales, las dos varianzas marginales y la correlación. Como puede observarse, en este caso la matriz es regular y por tanto definida positiva dado que   < 1. Si  fuera +1 ó -1, las dos variables estarían linealmente relacionadas y las observaciones serían unidimensionales. Si  = 0, la ecuación (2.14) se reduciría al producto de las dos funciones de densidad normales univariantes, aunque esto pueda no ser así para otro tipo de distribuciones multivariantes. Para comprender un poco mejor la ecuación (2.14), nótese que la función de densidad f(x1, x2) normal bivariante es constante en las superficies donde el exponente (x – )' -1(x – ) también es constante. Los valores de x que tienen igual densidad, forman elipses centradas en . Esto puede verse más claramente de forma gráfica (véase figuras 2.1 a 2.6). Los ejes de cada elipse de densidad constante están en la misma dirección que los autovectores de y sus longitudes son proporcionales a las raíces cuadradas de los autovalores de . La distribución marginal coincide con la fórmula dada en la ecuación (2.11). En cuanto a la distribución condicional, se obtiene mediante la siguiente expresión: 1

 x  2  1 1 

 x1 1  x2 2   x2 2        2    2 

 2   2(1 2 )  1  1  1 e 2 f (x , x ) 2  (1   ) f ( X1 | X 2 )  1 2  1 2 2 2 1 f 2 ( x2 ) e( x2 2 ) / 2 2 2

2

  

(2.15)

Operando se llega a lo siguiente:

1

f (X | X )  1

2

1

2

e 1





2     1  x1    1   1 ( x 2   2 )   2 2  12 (1   2 )    

(2.16)

2

Por lo cual,

  X 1 | X 2 ~ N   1   1 ( x 2   2 ), 2 

1

 1 2  

(2.17)


44

Donde, la esperanza matemática, E(X1 | X2 = x2), es la regresión de X1 sobre X2. La pendiente es:   1 y el srcen:  1    1  2 . 



2

2

Siguiendo este mismo planteamiento puede obtenerse la distribución de X2 condicionada a la de X1 donde:

   X 2 | X 1 ~ N   2   2 ( x1   1 ),  2 1   2  1  

(2.18)

Ejemplo 5: Sea la función de densidad conjunta bidimensional

f ( x1 , x 2 ) 

1 12 

0 , 84

e



1 x  1 2 1

 4 x 2  2   2 ,4

2 ,4  9 

1

 x1  1  x 2  2 

a) Las distribuciones marginales y condicionales son las siguientes: De la fórmula anterior se deduce que: 1 = -1; 2 = 2; 1 = 2; 2 = 3; 12 = 2.4;  = 0.4. Distribuciones marginales: X1  N(-1, 2) X2  N(2, 3) 2 Distribuciones condicionales: X 1 | X 2 ~ N  1  0.4 3 ( x2  2), 2 0.84  3 X 2 | X 1 ~ N  2  0 .4 ( x1  1), 3 0 .84  2   b) La probabilidad de que X1 sea mayor que 2 es: X1  N(-1, 2) P(X1  2) = P(z  (2+1)/2) = P(z  1.5) = 0.0668 (ver tabla 1 del anexo). c) La probabilidad de que X1 sea mayor que 2 dado que X2 es 3 es: 2 X 1 | X 2  3 ~ N   1  0 . 4 (3  2 ), 2 0 .84   N (  0 .73 , 1 .83 ) 3   P(X1  2 | X2 = 3) = P(z  (2+0.73)/1.83) = P(z  1.49) = 0.0681 d) La probabilidad de que X1 sea mayor que 2 dado que X2 es 1 es: 2 X 1 | X 2  1 ~ N   1  0 . 4 (1  2 ), 2 0 .84   N (  1 .27 , 1 . 83 ) 3   P(X1  2 | X2 = 1) = P(z  (2+1.27)/1.83) = P(z  1.79) = 0.0367


45

La distribución X1 | X2 puede entenderse como la regresión de X1 sobre X2 donde la pendiente de la recta X1' es 0.4 (2/3)= 0.27 y el srcen -1 - 0.27 (2)= -1.53. Gráficamente, se observa más claramente la diferencia entre las áreas de probabilidad obtenidas en los apartados c) y d): 3

X1

0.0681

0.0367

2 1 1

2

3

X2

X1'

Como puede verse, la probabilidad de que X1 sea mayor que 2 condicionada al valor X2 = 1 es menor que la misma probabilidad condicionada al valor X2 = 3. La distribución normal bivariante puede ilustrarse gráficamente. La figura 2.1 muestra el gráfico tridimensional en puntuaciones típicas para dos variables donde  = 0. En la figura 2.2. se muestra el mismo gráfico expresado en un diagrama de contornos. Las figuras 2.3. y 2.4 están confeccionadas para un valor de  = 0.80 y las figuras 2.3. y 2.4 para un valor de  = -0.80. Como puede observarse, la presencia de correlación hace que la probabilidad se concentre a lo largo de una línea. Los diagramas de contornos reflejan con más claridad que los valores de que tienen igual densidad, forman elipses centradas en (véase figuras 2.2, 2.4. y 2.6.). En todos los casos la función de densidad de probabilidad conjunta tiene un máximo en el valor de (es decir en el punto 0, 0 del gráfico). La figura 2.2 muestra que cuando  = 0, la elipse adopta una forma circular pues la pendiente es cero. En la figura 2.4 puede verse que cuando  > 0 el eje principal de la elipse tiene una pendiente positiva y en la figura 2.6 que cuando  < 0, la elipse tiene una pendiente negativa. x


46

3

2

1

. 15 0

0. 1 2

. 05

1

0 0 - 2

2

0 - 2 3

2

3-

Figura 2.1. Diagrama 3-D para distribución normal bivariante con = 0

2-

1-

0

1

2

3

Figura 2.2. Diagrama de contornos para Distribución normal bivariante con  = 0 3

2

1

. 2

0

2

. 1

1

0 0

2

- 2 0 - 2

3

2

3-

Figura 2.3. Diagrama 3-D para distribución normal bivariante con > 0

2-

1-

0

1

2

3

Figura 2.4. Diagrama de contornos para Distribución normal bivariante con  > 0 3

2

1

. 2

0

2

. 1

1

0 0 - 2 2

0 - 2 2

3 3-

Figura 2.5. Diagrama 3-D para distribución normal bivariante con < 0

2-

1-

0

1

2

3

Figura 2.6. Diagrama de contornos para Distribución normal bivariante con  < 0


47

La distribución normal multivariante es importante por varias razones. En primer lugar debido a la forma multivariante del teorema del límite central. En segundo lugar, muchas técnicas multivariantes requieren que los datos sigan esta distribución para estimar los parámetros por máxima verosimilitud y realizar contrastes de hipótesis. Por último, si el modelo estadístico incluye más de un parámetro, la distribución asintótica de los estimadores es normal multivariante; esto permite obtener intervalos de confianza para los estimadores y la correlación entre ellos (Andersen, 1980; Muirhead, 1982). Además de la distribución normal multivariante, descrita aquí, hay otras muchas. Aquí no se entrará en detalle en ninguna de ellas, aunque sí se nombrarán algunas de las más conocidas. Para variables discretas la más conocida es la distribución multinomial. La forma multivariante de la distribución multinomial se utiliza para el caso de múltiples variables discretas clasificadas en una tabla de contingencia multidimensional (véase Bishop, Fienberg & Holland, 1975). Otras distribuciones multivariantes discretas son la de Poisson, la hipergeométrica y la de series logarítmicas (para más detalle véase Bishop, et al., 1975; Johnson & Kotz, 1969). En cuanto a las distribuciones multivariantes para variables continuas, la más relevante es la normal multivariante, aunque hay muchas otras que se relacionan con ella. Por ejemplo, la distribución Wishart, que es la forma multivariante de la distribución 2 de Pearson, la T2 de Hotelling, que es la forma multivariante de la distribución t de student y la forma multivariante de la distribución beta, gamma y la exponencial (para más detalle véase Johnson & Kotz, 1972).


48

4. Ejercicios 1.

Dos variables aleatorias, X e Y, tienen la siguiente función de densidad de probabilidad conjunta: 3 x si 0  y  x  1

f ( x, y )   0

a) b) c) d)

En cualquier otro caso

Obtenga las distribuciones marginales de X e Y Demuestre que las variables aleatorias no son independientes Obtenga el valor esperado, la varianza y la covarianza para X e Y Obtenga la distribución condicional de X dado que Y = 1/2

2.

Tres variables aleatorias, X, Y y Z tienen la siguiente función de densidad de probabilidad conjunta: 4 / 9 xyz 2 si 0  x  1, 0  y  1, 0  z  3 f ( x, y , z )   En cualquier otro caso 0 a) Demuestre que las variables aleatorias son independientes b) Demuestre que la función de densidad de probabilidad conjunta de X y Z viene dada por:  2 / 9 xz 2 si 0  x  1, 0  z  3 f ( x, z )   En cualquier otro caso 0 e) Demuestre que E (X) = 2/3 f) Obtenga la distribución condicional de X dado que Y = 1/2, Z = 1 g) Demuestre que la covarianza entre X y Z es 0 h) Obtenga f (x, y, z) mediante F (x, y, z). Utilice para ello la fórmula 2.1.

3.

Suponga que la distribución conjunta de dos variables, X1 y X2 es la normal bivariante con parámetros 1, 2, 12, 22 y . Calcule la inversa y el determinante de la matriz de covarianzas. ¿Qué ocurre con la distribución cuando: (a)  = 0; (b)    y (c)   ?.

4.

Sea X' = [X1, X2, X3] una variable aleatoria con distribución normal multivariante y parámetros: 8 7 5   '  7 9 6   7 14 9  5 9 11 Determine las siguientes probabilidades: a) P(X3  5) b) P(5  X2  12) c) P(2X1 + X2 – X3  25) d) Probabilidad de que X1 sea menor que 7 dado que X2 es 3 e) Probabilidad de que X1 sea menor que 7 dado que X2 es 5

Capítulo 3. Análisis de Regresión Lineal Múltiple 1. Introducción La regresión pretende pronosticar los valores que toma una variable cuantitativa (la variable dependiente: Yi) a partir de los valores que toman otra/as variable/s también cuantitativas (la/s variable/s independiente/s: Xj). La regresión (RS) los variable valores que toma la variable dependiente (Yi) asimple partir de los explica de una sola independiente ( Xj). La regresión múltiple (RM) tiene por objeto combinar p variables independientes (X1, X2, ..., Xp) de tal modo que pronostiquen con la mayor precisión los valores que toma la variable dependiente (Y). La RM permite analizar tanto las contribuciones individuales como las colectivas del conjunto de variables independientes en los cambios que se producen en la variable dependiente. La regresión puede formularse desde diferentes modelos. Aquí se considera exclusivamente el modelo lineal por su sencillez y porque ha demostrado ser de gran utilidad en muchas situaciones aplicadas. Existen diversos manuales sobre regresión lineal. Por ejemplo los de Montgomery y Peck (1992), Neter et al. (1996), Pedhazur (1982) y Weisberg (1985). Y para aspectos más aplicados los de Berry y Feldman (1985), Cook (1999), Draper y Smith (1981) y el de Etxebarría (2000) en castellano.

2. El modelo lineal general Un modelo es una afirmación algebraica sobre cómo se relacionan dos o más variables. Existen diversos tipos de afirmaciones algebraicas pero la más sencilla y flexible es la del modelo lineal. Los modelos lineales establecen una hipótesis sobre la relación entre dos tipos de variables: las dependientes y las independientes. La estructura de la relación entre ambas constituye su forma funcional, que incluye la relación entre las principales variables, el tipo de distribución de probabilidad de las variables aleatorias y los parámetros de las ecuaciones del modelo. Expresado formalmente, si Yi es la medida en la variable dependiente para el sujeto i, el modelo lineal descompone las puntuaciones en Yi como el resultado de la suma ponderada de los siguientes componentes: Yi = 0 X0i + 1 X1i + 2 X2i + ... + p Xpi + i

(3.1)

Donde X1i, X2i, …, Xpi son las p variables independientes incluidas en el modelo para explicar el comportamiento de la variable dependiente. Se consideran variables fijas. Los 1, 2, …, p son los p parámetros que se

50


necesita estimar para decidir sobre la importancia de cada una de las variables presentes en la ecuación. 0X0i representa el conjunto de efectos debidos a variables mantenidas constantes (donde X0i toma el valor 1 para todos los sujetos). Por último, i es el efecto debido al conjunto de variables no incluidas en el modelo. Se denomina error aleatorio y se supone varía aleatoriamente con media 0 y varianza 2. Según estas especificaciones, el modelo lineal general asume que hay n observaciones en p variables no correlacionadas tal que: E(Y) = 0 + 1X1i + 2X2i + ... + pXpi Var(Y) = 2 La expresión (3.1) se corresponde con las siguientes matrices y sistema de ecuaciones:

Y1   0X01  1X11  2X21 ... p Xp1 1  Y   X   X   X ...  X   p p2 2;  2    0 02 1 12 21 22        X   X   X ...  X    p pn n Yn   0 0n 1 1n 21 2n

Y1 1 X11 X21 Y  1 X X  2   12 22       1 X X Yn  1n 2n

   

  Xp1  0  1  Xp2  1  2 2           Xpn   n p

De modo más compacto: *

(3.2) + Si se introduce en la ecuación solamente una variable independiente (X1), el modelo de regresión lineal para predecir los valores de la variable dependiente (Yi) en n ensayos es: Y=X

Yi = 0 + 1X1i +i

(3.3)

Donde Y es el vector de valores de la variable dependiente de orden n x 1, la matriz de orden n x 2 correspondiente a los valores de la variable independiente, el vector de orden 2 x 1 de parámetros llamados coeficientes de regresión; donde 0 es el srcen de la recta de regresión y 1 su pendiente, un coeficiente que indica el cambio que se produce en Y por cada unidad de variación en X1. Cuando la relación entre X1 e Y es positiva 1 > 0, cuando es negativa 1 < 0. Por último es el vector de errores aleatorios o residuos de orden n x 1. X*

Si se consideran p variables independientes (X1, X2, ..., Xp), el modelo de regresión para predecir los valores de la variable dependiente ( Yi) en n ensayos es: Yi = 0 + 1X1i + 2X2i + ... + pXpi + i (3.4) La expresión (3.4) en modo matricial es: Yn x 1 = X*n x

+1

+1

x1+

n x 1.

AN LISIS DE REGRESI N LINEAL M LTIPLE

51

Además de los ya mencionados, otros supuestos del modelo lineal general son los siguientes: a).

1    E ( )  E  2       n 

0 0      0

 E( 12 ) E( 1 2 ) E(  ) E( 22 ) b). E( ' )   1 n     E( n  1 ) E( n  2 )

   

E( 1 n )   2 0 E( 2  n )  0  2        2 E( n )   0 0

   

0 0    2I     2 

c). Cov(, X) = 0 d). r(X) = p (no multicolinealidad = Las Xj son independientes). e). Adicionalmente, puede asumirse que  N (0, 2I), aunque no es imprescindible. Si se asume, puede utilizarse el método de estimación de máxima verosimilitud y llevarse a cabo las pruebas de significación (véase apartado 4.2). El modelo lineal general, pese a su simplicidad, ha dado fundamento a la mayor parte de las técnicas de análisis de datos que se utilizan en la investigación empírica. Entreetc. ellas se encuentran los modelos de regresión lineal, el análisis de varianza,

3. Estimación de parámetros El modelo planteado en la ecuación (3.4) refleja el modelo de regresión múltiple en términos de sus parámetros poblacionales ( 0, 1, ..., p). Para una muestra extraída de la población el modelo (3.1) puede expresarse mediante:

Yi = b0 + b1X1i + b2X2i + ... + bpXpi + ei

(3.5)

Donde b0, b1, b2, ..., bp son los estimadores de los parámetros 0, 1, 2, ...,

p y ei es el estimador de i.

De modo más compacto la ecuación (3.5) puede expresarse mediante: Y = X* b + e

(3.6)

Existen diferentes métodos para estimar los parámetros. Aquí se expone el más utilizado, el de mínimos cuadrados, aunque también se comenta brevemente el de máxima verosimilitud.


52

3.1. Método de estimación por mínimos cuadrados

Con el cálculo de los estimadores de los parámetros de la expresión (3.5) se pretende estimar la ecuación de regresión que mejor se ajusta a los datos empíricos. El procedimiento matemático para estimar dicha ecuación consiste en calcular la recta (en regresión simple) o el plano (en regresión múltiple) cuya distancia vertical a los distintos valores de Y sea mínima.

ˆ es el valor predicho mediante las variables independientes en Y, se Si Y tiene que: ˆ  X*b En puntuaciones directas: Y = X* b + e; Y En puntuaciones diferenciales: y = X b + e; yˆ  Xb En puntuaciones típicas: zy = zx b* +e*; zˆ y  z x b * El error obtenido en el pronóstico será:

ˆ  Y - X *b En puntuaciones directas: e  Y-Y En puntuaciones diferenciales: e  y  yˆ  y  Xb En puntuaciones típicas: e *  z y  zˆ y  z y  z x b *

ˆ es aquella en que el valor La mejor predicción de las Y a partir de las Y de los errores sea lo más pequeño posible. Aplicando el método de mínimos cuadrados:

min:  e2 = e'e

La expresión que permite calcular el vector de parámetros de la ecuación de regresión que hace mínima e'e es: * * -1 * En puntuaciones directas: b = (X 'X ) X 'Y En puntuaciones diferenciales: b = (X'X)-1 X'y En puntuaciones típicas: b* = (Z'Z)-1 Z'Zy = (Rxx)-1Rxy (3.7) A continuación se expone la demostración de las ecuaciones obtenidas en (3.7) en puntuaciones diferenciales: Partiendo de y = Xb + e, se trata de calcular b de modo que los valores de sean lo más pequeño posible. Puesto que E( e) = 0, lo que hay que minimizar es e'e: e

e'e = (y – Xb)' (y – Xb) = y'y – y'Xb – b'X'y + b'X'Xb

Puesto que y'Xb es la misma cantidad escalar que b'X'y: e'e = y'y – 2 b'X'y + b'X'Xb

Nótese que b'X'Xb = b'Sb (forma cuadrática de S).


53

Para minimizar e'e se iguala a cero la derivada parcial:

 (e ' e )   2 X ' y  2 X ' Xb b Igualando a 0 se obtienen las llamadas ecuaciones normales: X'Xb = X'y Por tanto, si X'X es regular la solución para b es: b = (X'X)-1 X'y

Propiedades de los estimadores. - La estimación de los elementos del vector b es lineal, insesgada y eficiente. Es decir: E(b) = Var(b) = 2 (X'X)-1 < Var(c) - Este método de estimación no exige normalidad. Es decir, los i pueden tener cualquier tipo de distribución con E( ) = 0 y Var( ) = 2 I . - cov(i,j) = 0 que indica independencia entre los errores o ausencia de autocorrelación. Es decir, el error que se comete en i no debe tener ninguna relación con el que se comete en j. - cov(i, Xj) = 0. Los errores deben ser aleatorios, no debe haber errores sistemáticos. - cov(i, yˆ i ) = 0 (independencia). A continuación se presentan dos ejemplos. Ambos están basados en muestras muy pequeñas (de 3 y 5 sujetos, respectivamente). Esta situación es poco realista, pues en la práctica es necesario emplear muestras mucho mayores. Si se incluye aquí es con el único objeto de ejemplificar el cálculo manual de los procedimientos descritos. Ejemplo 1. Regresión simple Las puntuaciones obtenidas por práctica fueron las siguientes: Sujeto: 1 2 Teórica (X): 3 4 Práctica (Y): 1 5

tres sujetos en una prueba teórica y en una 3 2 0

Suma 9 6

Media 3 2

a). Estimación de parámetros (en puntuaciones directas): 1 3  1 1 1   3 9  * * X 'X   1 4         3 4 2  1 2   9 29   

Desv. típica 0.82 2.16

 N  X i 

X i   X i2 


54

1 1 1 1    6   Yi  1  29  9 4.83 1.5 * (X* ' X* ) 1    ; '  X Y 3 4 2 5  23  X Y  6  9 3  1.5 0.5    0    i i    4 .83  1 .5   6    5 .5  b  ( X * ' X * ) 1 X * ' Y          1 .5 0 .5   23   2 .5  b). Ecuación de regresión, pronósticos y errores de estimación

Yî   5.5  2.5 X i  e i

 2  1 3   5 .5    ˆY  X * b  1 4      2 . 5    4 . 5  1 2    0 . 5  1   2    1  ˆ   5    4 .5    0 .5  e  Y  Y        0    0 . 5   0 . 5  e'e

  1

0 .5

 1 0 . 5   0 . 5   1 . 5  0 . 5 

Ejemplo 2. Regresión múltiple con dos variables independientes Una muestra aleatoria representativa de una población de directivos de una empresa realiza una prueba de memoria y otra de razonamiento verbal, al tiempo que se registran sus puntuaciones en una prueba de eficacia. A partir de los resultados se desea obtener la ecuación del plano de regresión que permita hacer pronósticos en eficacia a partir de las puntuaciones en memoria y razonamiento. Se dispone de los siguientes datos: Sujeto 1 2 3 4 5 Suma Media D.Típica 30 25 28 32 22 137 27.4 3.975 Memoria (X1) Razonamiento (X2) 15 10 12 14 13 64 12.8 1.924 Eficacia (Y) 34 25 30 38 26 153 30.6 5.459 a). Estimación de los parámetros (en puntuaciones diferenciales): x' 

27.4 12.8  ; y  30.6

 2.6  2.4 2.6  2.4 0.6 4.6  5.4   X' X    0.6 2.2  2.8  0.8 1.2 0.2   4.6   5.4

2.2   2.8 63.2 16.4  xi21 xi1 xi2   0.8      16.4 14.8 xi2 xi1 xi22  1.2  0.2 

AN LISIS DE REGRESI N LINEAL M LTIPLE X'X

55

 ( 63 . 2 )(14 . 8 )  (16 . 4 )(16 . 4 )  666 . 4

1  14 .8  16 .4   0.0222  0.0246   666 .4   16 .4 63 .2    0.0246 0.0948   3 .4    5 .6    80 .8   2 . 6  2 . 4 0 .6 4 .6  5 .4     0 .6    X' y     2 . 2  2 . 8  0 .8 1 . 2 0 . 2  31 .6      7 .4      4 .6   0 .0222  0 .0246  80 .8  1.02  1 b  (X' X)  X' y         0 .0246 0 .0948   31.6  1.01  ( X ' X ) 1 

  x i1 y i  x y  i2



b). Ecuaciones de regresión, pronósticos y errores de estimación. En puntuaciones diferenciales.

yˆ i  1 .02 x1  1 .01 x 2  e i Donde: 2 .2   2 .6   2 .4  2 .8    1 . 02  yˆ  Xb   0 . 6  0 .8    1 . 2  1 . 01   4 .6   5 . 4 0 . 2   3 . 4   4 . 874    5 . 6    5 . 276      e  y  yˆ    0 . 6     0 . 196       7 . 4   5 . 904    4 . 6    5 . 306 

 4 . 874    5 . 276      0 . 196  ;  5 . 904    5 . 306    1 . 474   0 . 324     0 . 404   1 . 496  0 . 706

En puntuaciones directas. Yî   10 . 17  1 . 02 X 1  1 . 01 X 2  e i Donde: b 0  Y  b1 X 1  b 2 X 2   10 .17

En puntuaciones típicas. zˆ y  0.7413 z x  0.3507 z x  e *i i

Donde: b *  R xx1 R xy

1

2

yˆ ' yˆ

   ;   

 114 . 024

e'e

 5 . 177

i




56

0.25  D 1 / 2 S xx D 1/ 2    0  1  1 R xx1  0 . 71   0 . 54

R xx

R b*

xy





D 1 / 2 S xy S y 1 / 2

R

1 xx

R

xy

0  15.8 4.1 0.25 0   1 0.54  0.52  4.1 3.7  0 0.52 0.54 1   0 . 76  0 . 54   1 . 41  1    0 . 76 1 . 41 

 0 . 25   0

  1 . 41   0 . 76

0  0 . 52 

 20 . 2  1  0 . 93   7 . 9  5 . 46   0 . 75     

 0 . 76   0 . 93    0 . 7413  1 . 41   0 . 75   0 . 3507 

3.2. Método de estimación de máxima verosimilitud

El anterior procedimiento es válido independientemente de la distribución de los errores. Si se asume que los errores son normales el modelo de regresión viene dado por: y=X

+

 N (0, 2 I) X  Np ( , ). Donde, r( ) = p; lo que implica que: r(X) = p En este caso se puede utilizar el método de estimación de máxima verosimilitud. Se trata de estimar los valores del vector de parámetros que hagan más probable el valor de los datos observados. Como se vio en el capítulo 2, la regresión simple es la distribución condicionada de Y sobre X. Asumiendo normalidad:

1

f (Y | X )  

Y

2

1 2

e



   1  y  Y   Y ( X   X  X 2  Y2 ( 1   2 )  

2  )    

Los estimadores máximo verosímiles se obtienen maximizando la función de verosimilitud: n

L i 1

  1  f (Y | X )   2 2    Y 2 (1   ) 

n/2

e



2  Y2

n    1  y i    Y   Y ( X i   X X (1  2 ) i 1  



 2 )    

En la práctica se toman logaritmos pues queda una expresión más sencilla: 2

n 1    yi   Y    Y ( X i   X )   log L  n log  2 1   2   Y 2 (1   2 )  2 Y2 (1   2 )  X i 1   

Para obtener el estimador máximo verosímil de se iguala la primera derivada de ln L a cero. Mediante este procedimiento se llega a lo siguiente: b = (X'X)-1 X'y


57

En el caso de que la variable Y sea normal la estimación por mínimos cuadrados y máxima verosimilitud proporcionan resultados idénticos (para más detalle véase Rao y Toutenburg, 1995; y Revuelta y Ponsoda, 2000).

4. Verificación del modelo Una vez estimado el modelo hay que valorar si constituye una buena o mala aproximación a nuestro conjunto de datos. Es decir, cabe preguntarse: ¿En qué medida es posible predecir los valores de Y a partir de los de X con el modelo? Una representación gráfica de los datos empíricos y el modelo estimado puede proporcionar una primera aproximación al problema de la verificación del modelo. La figura 3.1. muestra el gráfico de dispersión y la recta de regresión estimada en puntuaciones directas para los datos del ejemplo 1 y la figura 3.2. para los del ejemplo 2: 

5 4 o c i t c á r P

3 2 

1 0



2.0

2.5

3.0 Teórico

3.5

4.0

Figura 3.1. Recta de regresión para el ejemplo 1

Figura 3.2. Plano de regresión para el ejemplo 2

Asimismo, hay que valorar en qué medida el modelo se ajusta a los datos empíricos y la contribución de las variables independientes en los cambios que se producen en la variable dependiente. A todo esto se le denomina bondad de ajuste. 4.1. Medidas de bondad de ajuste 4.1.1. Descomposición de la varianza

Una parte de la variación de los datos puede explicarse mediante el modelo de regresión ( yˆ ). Sin embargo hay otra parte que queda sin explicar (e). Es decir: (3.7) y  yˆ  e Calculando la suma de cuadrados de y:


58 y'y

 ( yˆ  e )' ( yˆ  e )  yˆ ' yˆ  yˆ ' e  e ' yˆ  e ' e  yˆ ' yˆ  e ' e

En términos de análisis de varianza (o ANOVA):

 y  y'y SCR   yˆ i  yˆ ' yˆ  ( Xb )' ( Xb )  b ' X ' Xb SCE   e i   ( y i  yˆ i )  e' e  y ' y  yˆ ' yˆ  y ' y  b ' X ' Xb 2 i

SCT 

2

2

2

La descomposición de la varianza de y con los datos del ejemplo 2 es la siguiente:  3 .4    5 .6    SCT  y ' y  3 . 4  5 . 6  0 . 6 7 . 4  4 . 6    0 . 6   119 . 20  7 .4      4 . 6   4.874   5.276   SCR  yˆ ' yˆ  4.874  5.276  0.196 5.904  5.306  0.196  114.024    5.904   5.306    1.474   0.324   SCE  e' e   1.474  0.324  0.404 1.496 0.706  0.404  5.177    1.496   0.706  Se comprueba que: 119.20 = 114.024 + 5.177 4.1.2. Coeficiente de determinación

Informa sobre el grado de ajuste de los puntos a la recta o al plano de regresión. Es la bondad del modelo de regresión y se calcula mediante el índice estadístico R2: Si: Ry( x1 ,x2 ,...,xp )  ryyˆ  Entonces: R 2 

yi yˆ i  y  i  yî 2

2



y' yˆ y' y yˆ ' yˆ

yˆ ' yˆ  (yˆ  e)' yˆ  (y' y)(yˆ ' yˆ ) (y' y)(yˆ ' yˆ )

yˆ ' yˆ e' e ( yˆ ' yˆ ) 2 SCR SCE   1  1 y' y SCT SCT ( y ' y )( yˆ ' yˆ ) y ' y


59

R2 oscila entre 0 y 1 y es la proporción de varianza de Y que queda explicada por las Xj. En el ejemplo 2: R 2  114 . 024  1  5 . 176  0 . 9566 119 . 20 119 . 20 La memoria y el razonamiento explican el 95.66% de la prueba de eficacia. 4.1.3. Coeficiente de determinación corregido

El coeficiente R2 viene afectado por un cierto efecto inflacionista sobre el grado de ajuste. Esta inflación se srcina en dos hechos: el tamaño muestral (n) y el número de predictores (p). Por tanto, es necesario introducir un factor corrector. El procedimiento consiste en corregir las sumas de cuadrados:

R2  1

e ' e /( n y'y

SCE /( n  p ) SCE n  1  p) 1  1 /( n  1) SCT /( n  1) SCT n  p

Con lo que se llega a: R 2  1   n  1 (1  R 2 )

n p

Para p > 1, R 2 < R2 y esta diferencia aumenta a medida que aumenta también el número de variables independientes. Si el modelo no incluye el término b0, el numerador es n en lugar de n – 1 y R 2 puede ser menor que 0, cosa que nunca puede ocurrir con R2. En regresión múltiple es más apropiado utilizar R 2 , sobre todo si el tamaño muestral es pequeño y si se desea comparar distintos modelos para pronosticar los valores de una misma variable dependiente. El coeficiente de determinación corregido para el ejemplo 2 es el siguiente:

5 1  R 2  1    (1  0 .9566 )  0 .9421 52 4.2. Contraste de hipótesis

Los coeficientes obtenidos en la ecuación de regresión son estimadores de los parámetros del modelo. Por ello es necesario realizar una prueba de significación para contrastar si su valor es 0 en la población y calcular los intervalos de confianza de los coeficientes de la regresión. Pueden llevarse a cabo tres tipos de contrastes, para lo cual es necesario que los errores se distribuyan normalmente con media 0 y varianza 2I:


60 4.2.1. H0: 0 =

1

=

2

=... =

j

= ... =

p=

0 o bien

H0:

= [0]

Una de las hipótesis a contrastar es si los elementos del vector son nulos. Es decir, la hipótesis sobre linealidad. Para ello se calcula el estadístico F utilizando el formato ANOVA:

FV Regresión Error Total

yˆ ' yˆ

SC gl = b'X'Xb p e'e n-p-1 y'y n-1

MC F F  Fp, (n – p –1) MCR / MCE /p e'e / (n-p-1)

yˆ ' yˆ

Con los datos del ejemplo 2 y  = 0.05: FV SC gl Regresión 114.02 2 Error 5.176 2 Total 119.20 4

MC 57.01 2.588

F 22.03

F  F2, 2 = 19

0.95F2, 2

Consultando la tabla 4 del anexo se observa que con  = 0.05 el punto crítico es 19. Puesto que 22.03 > 19 se rechaza H0. Por tanto, la memoria y el razonamiento están linealmente relacionadas con la prueba de eficacia. 4.2.2. H0:

m

= 0 (Correlación múltiple)

Otra forma de determinar si existe relación lineal es si el coeficiente de determinación (R2) es significativo. Se calcula el estadístico F: SCR/ p n  p 1 SCR n  p 1 SCR n  p 1 SCR/ SCT F    SCE/(n  p 1) p SCE p SCT SCR p 1 (SCR/ SCT)

F 

n  p 1 R2 ~ F p , ( n  p 1 ) p 1 R2

Con los datos del ejemplo 2 se llega a la misma conclusión que con la prueba anterior:

2 0.9566  F      22 .03  19  2  1  0 .9566  4.2.3. H0:

j=

0

Las anteriores pruebas de significación son un indicador de la bondad de ajuste global del modelo. Para comprobar la significación de cada uno de los coeficientes bj se calcula el estadístico T:

T

ˆ

bj ~ t n  p 1 c ii


Donde ˆ 2 

61

e' e -1  MCE ; cii = i-ésimo elemento de la matriz (X'X) . n  p 1

Con los datos del ejemplo 2 y  = 0.05:

 0.0222  0.0246 (X' X) 1     0.0246 0.0948 

 MCE  2.588  1.609 1.02 ˆ c11  1 . 609 0 . 0222  0 .2397 ; T1   4.25 ˆ

ˆ

c 22

0.2397  1 .609 0 .0948  0 .4954 ; T2  1.01  2.03 0.4954

Consultando la tabla 2 del anexo se obtiene un valor 0.975 t 2 = 4.303 y se concluye que con  = 0.05 ninguno de los coeficientes es significativo.(1) Dado el valor de bj también se puede estimar el intervalo de confianza de su verdadero valor en la población mediante:

b j  1  / 2 t n  p 1ˆ c ii Los intervalos de confianza para las variables independientes del ejemplo 2 son: Para X1: 1.02  4.303 (0.2397) = 1.02  1.03 = [-0.01, 2.05] Para X2: 1.01  4.303 (0.4954) = 1.01  2.13 = [-1.12, 3.14]

5. Análisis del cumplimiento de los supuestos Además de preguntarse si el modelo obtiene un buen ajuste, es necesario preguntarse: ¿Es el modelo correcto?. Para que la respuesta sea afirmativa se requiere el cumplimiento de ciertas condiciones de aplicación: que la relación entre las variables independientes y la dependiente sea lineal, que los residuos sean independientes, homogéneos y normales, y que no haya colinealidad entre las variables independientes. A continuación se comenta cada uno de estos supuestos y su procedimiento de comprobación. (1)

Si se desea obtener valores de t que dejan a su izquierda un área diferente a la que aparece en la tabla 2, se puede hacer mediante el SPSS. Por ejemplo, para un área de 0.65 primero se crea la variable gl, que contiene los grados de libertad y más tarde se ejecuta la sintaxis: COMPUTE x = IDF.T(0.65,gl). EXECUTE .


62

5.1. Linealidad de la relación

La relación entre cada una de las variables independientes incluidas en el modelo y la variable dependiente ha de ser lineal. Los gráficos parciales entre cada variable independiente y la variable dependiente permiten detectar el tipo de relación entre ambas. En regresión múltiple la representación gráfica de los residuos ayuda en esta detección. Hay que elaborar los diagramas de dispersión de los residuos que cada variable independiente sobre las restantes y la resultan regresióndedelalaregresión variable de dependiente sobre la variable independiente. Con los datos del ejemplo 2 se obtienen los siguientes gráficos: Gráfico de regresión parcial

Gráfico de regresión parcial

6

3

4

2

A I 2 C A 0 C I F -2 E -4 -6 -6

IA 1 C A 0 IC F -1 E -4

-2

0

2

-2 -3 -3

4

MEMORIA

-2

-1

0

1

2

RAZONAMIENTO

Figura 3.3. Gráfico de regresión parcial para memoria

Figura 3.4. Gráfico de regresión parcial para razonamiento

Este supuesto puede incumplirse cuando se omiten variables independientes importantes, la relación entre éstas y la variable dependiente no es lineal, los parámetros no son constantes o se da aditividad, es decir, alguna variable independiente interactúa con otra. En estos casos se puede utilizar otro tipo de regresión diferente a la lineal o efectuar alguna transformación en las variables que permita linealizar el modelo. 5.2. Independencia

Los residuos se comportan como una variable aleatoria. Por tanto, han de ser independientes entre sí, de las variables independientes y de los pronósticos. En caso de no cumplirse este supuesto, se produce el problema de la autocorrelación. La prueba de Durbin-Watson permite conocer el grado de independencia entre los residuos: n n DW   (ei  ei 1 ) 2 /  ei2 Donde: 0  DW  4 i 2

i 1

Si los residuos son independientes DW = 2. Se puede asumir independencia entre residuos si 1.50  DW  2.50. En los datos del ejemplo 2 se asume pues DW = 1.09.


63

5.3. Homocedasticidad

La variación de los residuos debe ser uniforme a lo largo de los valores pronosticados ( yˆ i ). Esto implica que el tamaño de los residuos es independiente del de los valores pronosticados. Para comprobar el cumplimiento de este supuesto se elabora el diagrama de dispersión entre los pronósticos y los residuos tipificados y se comprueba que no existe relación lineal entre las variables. El diagrama de dispersión en los datos del ejemplo 2 se presenta en la figura 3.5. Como se observa, no existe relación lineal entre los pronósticos y los residuos. o d ac if i ip t o u d sei R n ó sei rg e R

Gráfico de dispersión 1.0 .5 0.0 -.5 -1.0 -1.5

-.5 -1.0

.5 0.0

1.5 1.0

Regresión Valor pronosticado tipificado

Figura 3.5. Gráfico de dispersión entre zy’ y zy – y’ 5.4. Normalidad

Si se asume, para cada valor de la variable independiente, los residuos se distribuyen normalmente con media cero y varianza 2. Hay tres formas de comprobar este supuesto. La primera elaborar el histograma de los residuos tipificados para observar el grado de alejamiento de su distribución con respecto a la distribución teórica normal. En los datos del ejemplo 2: Histograma 1.2 1.0

ica n e ceu r F

.8 .6 .4 .2 0.0 -1.00

-.50

0.00

.50

1.00

Figura 3.6. Histograma de residuos tipificados

64


La segunda, elaborar el gráfico P-P de probabilidad normal que permite comparar la probabilidad acumulada observada y la esperada según la curva normal. La discrepancia mayor o menor es un indicador del mayor o menor alejamiento de los residuos a la normalidad. Este tipo de gráficos no son muy informativos a no ser que el tamaño muestral sea suficientemente grande ( n  20). El gráfico P-P correspondiente a los datos del ejemplo 2 se muestra en la figura 3.7. Con un n = 5, las desviaciones de los puntos a la normalidad no permiten concluir que los residuos no se distribuyen normalmente. Gráfico P-P normal 1.00

ad ar e .75 p es m .50 cu a .25 b o r P 0.00 0.00

.25

.50

.75

1.00

Prob acum observada

Figura 3.7. Gráfico P-P de probabilidad normal

Por último, también se puede emplear el test de normalidad KolmogorovSmirnov y comprobar que no sea significativo. Los resultados que ofrece el SPSS en los datos del ejemplo 2 no permiten rechazar la hipótesis sobre normalidad: Prueba de Kolmogorov-Smirnov para una muestra N Parámetros normales a,b Diferencias más extremas

Media Desviación típica Absoluta Positiva Negativa

Z de Kolmogorov-Smirnov Sig. asintót. (bilateral)

Standardized Residual 5 2.9802E-09 .7071068 .216 .216 -.161 .483 .974

a. La distribución de contraste es la Normal. b. Se han calculado a partir de los datos.

5.5. Ausencia de colinealidad

Las variables independientes no deben tener correlaciones demasiado altas. Cuando se incumple este supuesto se dice que existe colinealidad.


65

La existencia de colinealidad entre las variables puede srcinar diversos problemas. Si la colinealidad es perfecta, no se pueden estimar los coeficientes de la ecuación de regresión. Si es parcial, aumenta el tamaño de los residuos tipificados y las estimaciones de los coeficientes son muy inestables y difíciles de interpretar. Para detectar el problema de la colinealidad entre variables independientes se puede observar si se da alguno de los siguientes indicadores: a) El estadístico F del modelo es significativo pero ninguno de los coeficientes de regresión parcial lo es y los coeficientes de correlación son muy grandes. - En los datos del ejemplo 2 el estadístico F es significativo y ninguno de los bj lo es, aunque esto puede deberse al reducido tamaño muestral. b) Los coeficientes de regresión parcial tipificados están fuera del rango 1 < b*j < -1. - En los datos del ejemplo 2 no es así pues: b*1 = 0.74 y b*2 = 0.36. c) Los valores de la tolerancia de las Xj, que se calculan mediante la expresión: 1- R2j(1,2, ..., p), son menores de 0.01 y los factores de inflación de la varianza (FIV), los inversos de la tolerancia, son grandes. - En los datos del ejemplo 2 no sucede así pues: Estadísticos de colinealidad

MEMORIA

Tolerancia .712

FIV 1.404

RAZONAM

.712

1.404

d) En el análisis de componentes principales realizado sobre la matriz estandarizada de productos cruzados entre las variables independientes hay varios autovalores próximos a cero. Un componente explica mucha varianza de los coeficientes de dos o más variables. - En los datos del ejemplo 2 se obtienen los siguientes resultados: Proporciones de la varianza

2

Autovalor 2.983 8.951E-03

Indice de condición 1.000 18.256

(Constante) .00 .88

MEMORIA .00 .03

RAZONAM .00 .54

3

7.839E-03

19.508

.12

.97

.46

Dimensión 1

Dos de las tres dimensiones tienen autovalores próximos a 0. El índice de condición es la raíz del cociente entre el autovalor mayor y el de i. Si es mayor que 15 indica colinealidad y de 30 colinealidad severa. En este caso existe colinealidad. Además el componente 3 explica varianza de los coeficientes de dos variables.

66


Si se detecta la existencia de colinealidad, para corregirla, se puede aumentar el tamaño muestral, generar nuevas variables en base a combinaciones lineales de las variables altamente correlacionadas, o bien utilizar un procedimiento jerárquico a la hora de incluir las variables en la ecuación. Esta es una forma de selección de variables que permite elegir sólo aquellas que expliquen una parte de varianza distinta a la de las variables ya incluidas en el modelo. En el siguiente apartado se exponen diferentes procedimientos de introducción de variables.

6. Simplificación de modelos Los criterios básicos para la selección de variables son: La significación de los coeficientes (p < 0.05) y los valores de la tolerancia de Xj que deben ser grandes (mayores que 0.01). En caso de utilizar una sola variable independiente se selecciona la que más correlacione con la variable dependiente. Si se utilizan varias, dado que los coeficientes bj no indican la importancia relativa de la variable, es mejor utilizar los coeficientes estandarizados:

b *j  b j

sxj sy

No obstante, estos coeficientes no bastan para indicar la importancia relativa de las variables independientes, pues su posición en la ecuación no es fija y están afectados por las correlaciones entre ellas. Cuando las Xj están muy relacionadas también lo están los bj y tanto más cuanto mayor sea la correlación múltiple de una variable independiente cualquiera y todas las demás [R2j (1,2, ..., p)]. Al introducir una nueva variable Xj en un modelo de regresión múltiple hay que estudiar el incremento que se produce sobre R2. Es decir: R2  Rp2  Rp2 j . El coeficiente R2 permite conocer la importancia de la Xj introducida. Si al introducir la variable, se produce un incremento grande y significativo, la variable es importante, aporta información propia. La prueba de significación para decidir sobre el incremento se realiza mediante el estadístico F: ( SCE  SCE ) /( p  q ) ( R 2  R 2 ) /( p  q ) q p F  (1p R 2 q) /( n  p ) ~ F( p  q ),( n  p ) SCE q /( n  p ) p Donde p = [1,2, ...,j, ...,p] es el vector de parámetros del modelo completo (también llamado modelo saturado), q = [1,2, ...,j, ...,q] el vector de parámetros del modelo reducido y R2p y R2q los coeficientes de determinación correspondientes a cada modelo, respectivamente.


67

Si se parte del modelo saturado y se elimina una o más variables y el estadístico F es significativo, las variables eliminadas aportan variación significativa, de modo que el modelo reducido no es adecuado. Si F no es significativo, el modelo reducido es satisfactorio y explica la variación en la variable dependiente tan adecuadamente como el modelo saturado. Para dos modelos cualesquiera el incremento en el ajuste es: 2

2

2

R  R p  Rq ;

R2 p  1 Rq2

Donde

p es la proporción de reducción en la varianza error.

F 

n  p 1 p ~ F ( n  p 1), ( p  q 1 ) p  q 1 

Existen diferentes procedimientos secuenciales para decidir si incluir o excluir variables independientes en la ecuación de regresión. Dado un conjunto de variables independientes, se trata de seleccionar el mínimo número de ellas que expliquen el máximo de varianza posible de la variable dependiente. A continuación se describen cuatro métodos secuenciales: 6.1. Backward (método hacia atrás)

Consiste en calcular la correlación múltiple de la variable dependiente con todo el conjunto de variables independientes (modelo saturado). A continuación se procede a eliminar cada variable independiente de la ecuación de forma progresiva, según su menor coeficiente de regresión. Posteriormente se calcula el decremento en R2 y su correspondiente estadístico:

F 

R p21  R p22 ~ F1,( n  p ) (1  R p21 ) /( n  p )

Se elimina la variable si el decremento no es significativo. Es decir, si F < F El proceso de eliminación progresiva de variables continúa hasta que el decremento en R2 sea significativo. Es decir, hasta que no se pueda eliminar ninguna variable más. 1- 1, ( n – p).

6.2. Forward (método hacia delante)

Este procedimiento recorre el camino inverso del anterior. Consiste en ir introduciendo cada una de las variables independientes en el modelo de forma progresiva. La variable que entra primero es la que tenga mayor correlación simple con la variable dependiente, siempre y cuando su valor F

68


sea significativo. A continuación se procede a calcular los coeficientes de correlación parciales entre cada una de las variables no incluidas y la variable dependiente eliminando el efecto de la variable ya incluida. Se selecciona la variable con mayor correlación parcial y se estudia el incremento en R2 y su correspondiente F: R p22  R p21 F (1  R p21 ) /( n  p ) Se incluye la variable si el incremento en R2 es significativo (o si F > 1- F 1, El proceso se repite hasta que el incremento en R2 deja de ser significativo. Es decir, hasta que no se pueda incluir ninguna variable más. (n – p)).

6.3. Stepwise (método por pasos sucesivos)

Este procedimiento es una mezcla de los anteriores. De la misma forma que en el procedimiento forward, se incluyen variables independientes en la ecuación en pasos sucesivos. En este caso, en cada paso se analiza la situación de cada una de las variables (incluidas y no incluidas) y su posible eliminación o inclusión. En el primer paso se selecciona la variable independiente ( Xj) de mayor correlación con la variable dependiente y se retiene en el modelo si R2 es significativo. A continuación se selecciona la segunda variable independiente (Xk) con mayor correlación parcial con la variable dependiente y se calcula R2 y su prueba de significación con ambas variables en el modelo. La variable se retiene si F > 1-F1, (n-2-1). En el siguiente paso se selecciona la Xl de mayor correlación con la variable dependiente y se analizan las posibilidades de que Xj, Xk y Xl formen parte del modelo: (1) inclusión de Xl estando las otras dos; (2) eliminación de Xk estando las otras dos; (3) eliminación de Xj estando las otras dos. El proceso continua hasta que no se puedan incluir ni eliminar más variables independientes. Ejemplo 3. Regresión múltiple con cinco variables independientes En una muestra de 100 empleados de una empresa se miden dos variables de personalidad: neuroticismo (N) y extroversión (E), tres de inteligencia: razonamiento abstracto (RA), razonamiento verbal (RV) y razonamiento numérico (RN) y el rendimiento (RTO) en una tarea de ensamblaje. Se desea encontrar la ecuación de regresión que permita predecir RTO a partir de las variables de personalidad y de inteligencia. Se dispone de la matriz de correlaciones y de los estadísticos descriptivos para todas las variables:


RA 1.00 RN 0.10 RV 0.15 R  E 0.12 N 0.16  RTO 0.60 x '  50

1.00 0.16 0.20 0.16 0.40

69

    1.00  0.10 1.00   0.20 0.00 1.00  0.30 0.20 0.50 1.00 

50 50 50 50 ; s 'x  10 10 10 10 10 ; y  10; s y  2

a). Especificación del Modelo

RA

E

RN

RTO N

RV

RTOi = 0 +1 RAi + 2 RVi + 3 RNi +4 Ei + 5 Ni +Ei b). Estimación de parámetros (mediante mínimos cuadrados) Variable RA RV RN E N Constante (b0)

bj 0.098 0.021 0.052 0.016 0.072 -2.943

b*j 0.491 0.105 0.261 0.078 0.359

t 7.576 1.602 3.969 1.206 5.466 -2.567

p 0.0000 0.1126 0.0001 0.2309 0.0000 0.0000

c). Verificación del modelo

R 2  0.6257 ;

R2  1

100  1 (1  0.6257 )  0.60994 100  5

d). Pruebas de significación

ANOVA. FV Regresión Error Total Se comprueba que:

SC 247.78 148.22 396.00

gl 5 94 99

MC 49.56 1.58

F 31.43

p 0.0000


70

R12 

247.78  0.6257; 396

F

0.6257 / 5  31.43 (1  0,6257) / 94

El ajuste es significativo pues se rechaza H0: = [0]. Es decir, hay relación lineal entre las variables independientes y la variable dependiente. Todos los parámetros de las variables independientes tienen efectos significativos excepto los de extraversión (p = 0.2309) y razonamiento verbal (p = 0.1126). Por tanto, cabe plantearse la simplificación del modelo. e). Simplificación del modelo

Modelo 2: se elimina E. Los resultados de significación son: Variable RA RV RN N Constante (b0) FV Regresión Error Total

la estimación de parámetros y las pruebas de

bj 0.100 0.022 0.055 0.071 -2.392 SC

245.49 150.51 396.00

b*j 0.499 0.110 0.276 0.354

t 7.719 1.681 4.258 5.392 -2.270

p 0.000 0.096 0.000 0.000 0.025

gl

MC

F

p

4 95 99

61.37 1.58

38.74

0.000

Por tanto: RTOi = -2.392+ 0.100 RAi + 0.022 RVi + 0.055 RNi + 0.071 Ni + Ei Con el modelo 2: R22 

245.49  0.619924; R 22  0.60391 ( p  0.0000) 396

Donde:

F

( R12  R22 ) /(6  5) (0.6257  0.6199) / 1 0.006    1.5 ( p  0.23) (1  0.6257) / 95 0.004 (1  R12 ) /(100  5)

Al eliminar E, el decremento en F no es significativo por lo que el modelo 2 explica tan bien RTO como el saturado.

Modelo 3: se eliminan E y RV Variable bj RA 0.103 RN 0.058 N 0.074 Constante (b0) -1.728

b*j 0.512 0.289 0.372

t 7.886 4.460 5.687 -1.752

p 0.000 0.000 0.000 0.083


FV Regresión Error Total

SC 241.01 154.99 396.00

gl 3 96 99

71

MC 80.34 1.61

F 49.76

p 0.0000

El modelo 3 queda como: RTOi = -1.728+ 0.103 RAi + 0.058 RNi + 0.074 Ni + Ei Donde: R32 

241 .01

 0 .6086 ;

R 32  0.5964 ( p  0.0000 )

396

F

( R12  R32 ) /(6  4) (0.6257  0.6086) / 2 0.009    2.14 ( p  0.096) (1  0.6257) / 96 0.004 (1  R12 ) /(100  4)

Al eliminar E y RV, el decremento en F no es significativo por lo que el modelo 3 explica tan bien el RTO como el modelo saturado.

Modelo 4: se eliminan E, RV, RN y RA Variable N Constante (b0)

bj 1.000 5.000

b*j 0.500

t 5.715 5.606

FV Regresión

SC 99.00

gl 1

MC 99.00

Error Total

297.00 396.00

98 99

3.03

F 32.67

p 0.000 0.000 p 0.0000

El modelo 4 queda como: RTO = 5 + Ni + Ei Donde: R 42 

F

99  0 .25 ; 396

R 24  0 .24 ( p  0 .0000 )

( R32  R42 ) /(4  2) (0.60861 0.25) / 2 0.179    44.75 ( p  0.0000) (1  0.6081) / 96 0.004 (1  R32 ) /(100  4)

En este caso el decremento con respecto al modelo 3 es significativo. Por tanto, el modelo 3 es el que mejor explica la varianza en RTO y el más parsimonioso. f). Procedimientos Secuenciales Tanto por el procedimiento Backward, como por los procedimientos Forward y Stepwise, se llega en tres pasos a la conclusión de que el modelo que incluye las variables RA, RN y N (modelo 3) es el más parsimonioso y el que mejor explica la varianza en RTO.


72

Los resultados finales del tercer paso son idénticos en los tres procedimientos y coinciden en que el modelo 3 es el más apropiado para explicar la varianza de la variable RTO:

Variable RA RN N Constante (b0) FV Regresión Error Total

bj 0.102 0.058 0.074 -1.728 SC 241.008 154.992 396.000

b*j 0.512 0.289 0.372 gl 3 96 99

t 7.876 4.460 5.687 -1.752 MC 80.336 1.614

F 49.759

p 0.000 0.000 0.000 0.083 p 0.000

Donde: RTOi = -1.728+ 0.102 RAi + 0.058 RNi + 0.074 Ni + Ei

R 2  0 .60861 ;

R 2  0 .59638

7. El análisis de regresión múltiple y el lenguaje MATRIX del SPSS Cuando se dispone de los datos srcinales sobre las variables independientes y la variable dependiente, se introducen en el editor de datos del SPSS y se utiliza el procedimiento regresión lineal para estimar los coeficientes del más modelo, evaluar ajuste y comprobar aplicación (para detalle véase el Pardo y Ruiz, 2002). las condiciones de Por ejemplo, con los datos del ejemplo 2 se obtiene el siguiente cuadro de diálogo:

Fi ura 3.8.1. Procedimiento Re resión lineal del SPSS


73

A continuación se seleccionan las siguientes opciones dentro de los cuadros de diálogo ‘Estadísticos’y ‘Gráficos’:

Figura 3.8.2. Regresión lineal: Estadísticos

Figura 3.8.3. Regresión lineal: Gráficos

El resultado que ofrece el SPSS con estas selecciones aparece en el visor y es el siguiente: Variables introducidas/eliminadas b Modelo 1

Variables introducidas RAZONAM, MEMORIA a

Variables eliminadas .

Método Introducir

a. Todas las variables solicitadas introducidas b. Variable dependiente: EFICACIA

Resumen del modelo b

Modelo 1

R .978a

Rcuadrado .957

R cuadrado corregida .913

Error típ. de la estimación 1.61

Durbin-Watson 1.086

a. Variables predictoras: (Constante), RAZONAM, MEMORIA b. Variable dependiente: EFICACIA

ANOVAb Suma de cuadrados

gl

Media cuadrática

Regresión Residual

114.024 5.176

2 2

57.012 2.588

Total

119.200

4

Modelo 1

a. Variables predictoras: (Constante), RAZONAM, MEMORIA b. Variable dependiente: EFICACIA

F

Sig.

22.027

.043a


74

Coeficientes

Coeficientes Coeficientes no estandariza estandarizados dos Mode lo 1 (Constante) MEMORIA

Error B típ. -10.168 6.262

Intervalo de Estadísticos de confianza para B al 95% colinealidad

Beta

Límite Límite t Sig. inferior superior -1.62 .246 -37.110 16.774

Toler ancia

FIV

1.017

.240

.740

4.241 .051

-.015

2.048

.712

1.404

RAZONAMIENT 1.008

.495

.355

2.035 .179

-1.123

3.140

.712

1.404

Diagnósticos de colinealidad

Modelo Dimensión Autovalor 1 1 2.983 2 8.951E-03 3

7.839E-03

Proporciones de la varianza

Indice de condición 1.000

(Constante) .00

MEMORIA .00

RAZONAMIENTO .00

18.256

.88

.03

.54

19.508

.12

.97

.46

Los gráficos obtenidos son los mismos que los de las figuras 3.3., 3.4., 3.5., 3.6. y 3.7. Como se observa, los resultados coinciden exactamente con los cálculos hechos a mano para el ejemplo 2 del apartado 3.1. Si no se dispone de los datos srcinales y sólo se conocen los estadísticos y la matriz de correlaciones (o la de covarianzas), se sintaxis puede llevar adescriptivos cabo la regresión lineal mediante el lenguaje MATRIX. La que corresponde al ejemplo anterior es la siguiente: MATRIX DATA VAR X1 X2 Y /format lower diag/cont corr mean sd/n=5. Begin data. 1.000 .536 1.000 .931 .752 1.000 27.40 12.80 30.60 3.97 1.92 5.46 End data. REGRESSION /matrix=in(*) /variables=X1 to Y /MISSING LISTWISE /STATISTICS COEFF OUTS CI R ANOVA COLLIN TOL /DEPENDENT Y /METHOD=ENTER X1 X2 .

Cuadro 3.1. Sintaxis del lenguaje MATRIX para el ejemplo 2

Al ejecutar esta sintaxis, el SPSS genera un fichero en el editor de datos del SPSS que incluye el nombre y tipo de variables, el tamaño muestral, el vector de medias y el de desviaciones típicas y la matriz de correlaciones. La fi ura 3.9. muestra el as ecto ue tiene dicho fichero.


75

Figura 3.9. Fichero de datos que genera el SPSS con la sintaxis del cuadro 3.1.

Los resultados obtenidos son iguales a los anteriores aunque no incluyen el estadístico de Durwin-Watson ni los gráficos para los residuos, pues no pueden obtenerse si no se dispone de los datos srcinales. Por tanto, el procedimiento MATRIX proporciona los resultados del análisis de regresión lineal y tan sólo permite comprobar el supuesto de ausencia de colinealidad. Para comprobar los restantes supuestos se necesitan los datos srcinales. A continuación se resuelve el ejemplo 3 del apartado 6. En este caso, se pone a prueba los procedimientos secuenciales de simplificación de modelos. Para obtener estos resultados mediante los menús del SPSS se realizan las mismas selecciones que en la figura 3.8.1., que permite escoger diferentes métodos de ’selección variables (‘pasos o stepwise ’, ‘hacia atrás o backward o ‘hacia de delante o forward ’) sucesivos y se selecciona la opción ‘cambio en R cuadrado’ de la figura 3.8.2. La sintaxis del lenguaje MATRIX para resolver este ejemplo con el método de selección de variables hacia detrás es: MATRIX data var RA RN RV E N RTO /format lower diag/cont corr mean sd/n=100. Begin data. 1.000 .10 1.000 .15 .16 1.000 .12 .20 .10 1.000 .16 .16 .20 .00 1.000 .60 .40 .30 .20 .50 50 50 50 50 50 10 10 10 10 10 End data.

1.000 10 2

REGRESSION /matrix=in(*) /variables=RA RN RV E N RTO /MISSING LISTWISE /STATISTICS COEFF OUTS CI R ANOVA CHANGE COLLIN TOL /CRITERIA=PIN(.01) POUT(.05) /NOORIGIN /DEPENDENT RTO /METHOD=BACKWARD RA RN RV E N .

Cuadro 3.2. Sintaxis de MATRIX para ejemplo 3


76

Los resultados obtenidos al ejecutar esta sintaxis son los siguientes: Variables introducidas/eliminadasb Mod elo 1

Variables introducidas N, E, RA, RV, RN

Variables eliminadas

Método

a

Introducir

2

Hacia atrás (criterio: Prob. de F para eliminar >= .050).

E

3

Hacia atrás (criterio: Prob. de F

RV

para eliminar >= .050).

a. Todas las variables solicitadas introducidas b. Variable dependiente: RTO

Resumen del modelo

Estadísticos de cambio R cuadrado corregida .606


Cambio en R cuadrado .626

Cambio enF gl1 31.427 5

Sig. del cambio en F .000

Mod elo 1

R .791a

R cuadrado .626

2

.787b

.620

.604

1.258716

-.006

1.454

1

96

.231

3

.780c

.609

.596

1.270629

-.011

2.826

1

97

.096

gl2 94

a. Variables predictoras: (Constante), N, E, RA, RV, RN b. Variables predictoras: (Constante), N, RA, RV, RN c. Variables predictoras: (Constante), N, RA, RN

El SPSS proporciona los resultados en tres pasos. En el primero, se ha introducido el modelo saturado y se obtiene un coeficiente de determinación de 0.626. En el segundo, se elimina la variable E, produciéndose un cambio en R cuadrado de 0.006 puntos no significativo ( p = 0.231). En el tercer paso, se elimina la variable RV y el cambio en R cuadrado con respecto al modelo anterior es 0.011 y no es significativo (p = 0.096). No pueden eliminarse más variables del modelo, pues el decremento sería significativo. Por tanto, el mejor modelo es el que incluye las variables N, RA y RN pues explica un 61% de la varianza de la variable RTO. A continuación aparecen los resultados de las pruebas de significación y de la estimación de los coeficientes para cada uno de los modelos.


77

ANOVA Modelo 1

2

3

Regresión

Sumadecuadrados 247.778

gl 5

Mediacuadrática 49.556

Residual

148.222

94

Total

396.000

99

Regresión

245.485

4

61.371

Residual

150.515

95

1.584

Total

396.000

99

Residual

241.008 154.992

3 96

Total

396.000

99

F 31.427

Sig. .000a

38.736

.000b

49.759

.000

1.577

c

Regresión 80.336 1.614

a. Variables predictoras: (Constante), N, E, RA, RV, RN b. Variables predictoras: (Constante), N, RA, RV, RN c. Variables predictoras: (Constante), N, RA, RN

Coeficientes

Coeficientes no estandarizados Mod elo 1

B (Constante) -2.943 RA .098

Coeficientes estandarizad os

Intervalo de confianza para B al 95%

Estadísticos de colinealidad

Error típ. 1.146

Beta

t -2.567

Sig. .012

Límite inferior -5.219

Límite superior -.667

Tolera ncia

FIV

.013

.491

7.576

.000

.073

.124

.947

1.056

.052

.013

.261

3.969

.000

.026

.078

.921

1.086

E

.021 .016

.013 .013

.105 .078

1.602 1.206

.113 .231

-.005 -.010

.047 .041

.927 .943

1.079 1.060

N

.072

.013

.359

5.466

.000

.046

.098

.925

1.081

-2.270

.025

-4.484

-.300

RN RV

2

3

(Constante) -2.392 RA .100

1.054 .013

.499

7.719

.000

.074

.126

.956

1.046

RN

.055

.013

.276

4.258

.000

.029

.081

.954

1.048

RV

.022

.013

.110

1.681

.096

-.004

.048

.931

1.074

N

.071

.013

.354

5.392

.000

.045

.097

.928

1.077

-1.752

.083

-3.685

.230

(Constante) -1.728 RA .102

.986 .013

.512

7.886

.000

.077

.128

.969

1.032

RN

.058

.013

.289

4.460

.000

.032

.084

.969

1.032

N

.074

.013

.372

5.687

.000

.048

.100

.953

1.049

Como se observa en la tabla ‘Anova’, los resultados coinciden con los cálculos realizados con anterioridad. El ajuste es significativo pues se rechaza la hipótesis nula H0: = [0]. Es decir, existe relación lineal entre las variables independientes y la variable dependiente. Por tanto, el modelo con las variables independientes RA, 2RN y N es el más parsimonioso y el que mejor explica la varianza en RTO (R = 0.61; p < 0.0001). De la tabla ‘Coeficientes’ se deducen los coeficientes j para cada uno de los modelos en puntuaciones directas y típicas y las pruebas de significación H0: j = 0. Como se observa, en el modelo saturado todos los parámetros de


78

las variables independientes tienen efectos significativos excepto los de E (p = 0.2309) y RV (p = 0.1126) que son las variables que se han ido eliminando en cada paso. A continuación se muestran los resultados sobre los diagnósticos de colinealidad para cada uno de los modelos: Diagnósticos de colinealidad

Modelo 1

Dimensión 1

Autov alor 5.858

Indice de condición 1.000

(Constante) .00

2

.039

12.200

.00

.02

.06

.06

.46

.30

3

.034

13.114

.00

.66

.29

.03

.01

.05

4

.031

13.772

.00

.04

.16

.78

.01

.15

5

.028

14.582

.00

.16

.40

.04

.33

.36

6

.010

24.265

1.00

.12

.08

.09

.18

.14

1

4.892

1.000

.00

.00

.00

.00

.00

2

.034

11.942

.00

.57

.49

.00

.00

3

.032

12.394

.00

.22

.32

.36

.22

4

.030

12.675

.00

.01

.00

.50

.65

5

.011

20.742

1.00

.20

.19

.13

.13

1

3.922

1.000

.00

.00

.00

.00

2

.034

10.696

.00

.54

.54

.00

3

.031

11.203

.00

.19

.19

.79

4

.012

17.773

1.00

.27

.27

.21

2

3

Proporciones de la varianza RA RN RV E .00 .00 .00 .00

N .00

Como se observa, los resultados para el modelo 3 indican la ausencia de colinealidad severa, pues ninguno de los índices de condición supera el valor 30 y ningún componente explica mucha varianza de los coeficientes de más de dos variables. Por último, se muestra la tabla que resume las pruebas de significación y las correlaciones parciales entre las variables excluidas en cada paso y la variable dependiente: Variables excluidas

Estadísticos de colinealidad Modelo 2

E

Beta dentro .078a

3

E

.085b

1.304

.195

.133

.948

1.055

.932

RV

.110b

1.681

.096

.170

.931

1.074

.928

t 1.206

Sig. .231

Correlación parcial .123

Tolerancia .943

FIV 1.060

Tolerancia mínima .921

a. Variables predictoras en el modelo: (Constante), N, RA, RV, RN b. Variables predictoras en el modelo: (Constante), N, RA, RN

Como puede verse, los resultados justifican la eliminación de cada una de las variables.


79

Para llevar a cabo el método de selección de variables ‘hacia delante’ y ‘por pasos’ se ejecuta la misma sintaxis que la del cuadro 3.2. cambiando tan sólo la línea /METHOD que en lugar de BACKWARD debe decir FORWARD o STEPWISE, respectivamente. El lector puede comprobar que al ejecutar la sintaxis por ambos procedimientos se llega al siguiente resultado: Variables introducidas/eliminadasa Mod elo 1

Variables introducidas RA

Variables eliminadas .

Método Hacia adelante(criterio: Prob. de Fpara entrar <= .010)

2 3

N

.

Haciaadelante(criterio:Prob.deFparaentrar<=.010)

RN

.

Hacia adelante(criterio: Prob. de Fpara entrar <= .010)

a. Variable dependiente: RTO Resumen del modelo

Estadísticos de cambio R cuadrado corregida .353


Cambio en R cuadrado .360

Cambio enF 55.125

gl1 1

gl2 98

Sig. del cambio en F .000

Mod elo 1

R .600a

R cuadrado .360

2

.726b

.528

.518

1.389

.168

34.387

1

97

.000

3

.780c

.609

.596

1.271

.081

19.893

1

96

.000

a. Variables predictoras: (Constante), RA b. Variables predictoras: (Constante), RA, N c. Variables predictoras: (Constante), RA, N, RN

Coeficientes Intervalo de Estadísticos confianza para B al de 95% colinealidad

Coeficientes no Coeficientes estandarizados estandarizados Mod elo 1 2

3

B (Constante) 4.000 RA .120

Error típ. .824

Beta

t 4.855

Sig. .000

Límite inferior 2.365

Límite superior 5.635

.016

.600

7.425

.000

.088

.152

.558

.578

-1.322

2.357

Toler ancia

FIV

1.000 1.000

(Constante) .517 RA .107

.927 .014

.534

7.548

.000

.079

.135

.974

1.026

N

.014

.415

5.864

.000

.055

.111

.974

1.026

-3.685

.230

.083

(Constante) -1.728

.986

RA N

.102 .074

.013 .013

.512 .372

7.886 5.687

.000 .000

.077 .048

.128 .100

.969 .953

1.032 1.049

RN

.058

.013

.289

4.460

.000

.032

.084

.969

1.032

-1.752 .083

Como se observa, por ambos procedimientos se llega a la misma conclusión que con el método ‘hacia detrás’ comentado con anterioridad. Es


80

decir, que el modelo que incluye las variables RA, RN y N es el que mejor explica la varianza en RTO. Con el procedimiento MATRIX también es posible llevar a cabo el análisis de regresión leyendo la matriz de correlaciones desde un fichero de texto. No obstante, téngase en cuenta que en este caso se necesita incluir también el vector de medias y el de desviaciones típicas. A continuación se presenta un ejemplo: Si se tiene la siguiente matriz de correlaciones y los vectores de medias y el de desviaciones típicas, respectivamente, para seis variables y 200 sujetos en el fichero "C:\datos.txt": 1.0000 0.6200 0.1700 0.0900 0.2700 0.7900 50 50 10 10

0.6200 1.0000 0.1200 0.1300 0.1300 0.5800 50 50 10 10

0.1700 0.0900 0.1200 0.1300 1.0000 0.0200 0.0200 1.0000 0.1700 0.1200 0.4700 0.0800 50 10 10 2

0.2700 0.1300 0.1700 0.1200 1.0000 0.5800

0.7900 0.5800 0.4700 0.0800 0.5800 1.0000

La sintaxis para que el SPSS lea este archivo de texto y lleve a cabo una regresión por ejemplo de X6 sobre X1, X2, X3, X4 y X5 en un procedimiento secuencial stepwise es la siguiente: MATRIX DATA VAR x1 x2 x3 x4 x5 x6 /FILE="C:\datos.txt" /FORMAT FULL /CONT CORR MEAN SD /N=200 . REGRESSION /matrix=in(*) /variables=x1 x2 x3 x4 x5 x6 /MISSING LISTWISE /STATISTICS COEFF OUTS CI R ANOVA CHANGE COLLIN TOL /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT x6 /METHOD=STEPWISE x1 x2 x3 x4 x5.

Al ejecutar la sintaxis, la matriz R, el vector de medias y el vector de desviaciones aparecen en el editor de datos del SPSS de la misma forma que en la figura 3.9.


81

Los resultados del análisis se muestran en el visor de resultados del SPSS. El resultado más relevante es el siguiente: Resumen del modelo

Estadísticos de cambio Mod

R

R cuadrado

Error típ. de la

Cambio en R

Sig. del cambio

Cambio

elo 1

R .790a

cuadrado .624

corregida .622

estimación 1.229

cuadrado .624

2

.877b

enF gl1 328.736 1

.769

.767

.966

.145

123.771

3

.925c

.855

.853

.767

.086

116.502

4

.933d

.871

.869

.725

.016

24.233

gl2 198

en F .000

1

197

.000

1

196

.000

1

195

.000

a. Variables predictoras: (Constante), X1 b. Variables predictoras: (Constante), X1, X5 c. Variables predictoras: (Constante), X1, X5, X3 d. Variables predictoras: (Constante), X1, X5, X3, X2

El lector puede comprobar que con este procedimiento el mejor modelo es: X6’ = -3.623 + 0.108 X1 + 0.032 X2 + 0.059 X3 + 0.072 X5 (con R2 = 0.871 y p < 0.0001).

8. Ejercicios 1.

Una muestra aleatoria, representativa de una población de vendedores de una empresa, realiza una prueba de extroversión (X1) y otra de fluidez verbal (X2), al tiempo que se registran sus puntuaciones en ventas de un producto (Y). Los resultados obtenidos fueron los siguientes:

X1: X2: Y:

4 1 10

8 2 2

10 3 3

12 5 2

20 10 1

15 7 2

Se desea obtener la ecuación del plano de regresión que permita hacer pronósticos lascomo ventas del producto a partir de la extroversión y la la bondad de dicho modelo. fluidez verbalen, así Lleve a cabo el análisis de regresión completo (incluyendo pruebas de significación y comprobación de supuestos) y comente el resultado obtenido.


82 2.

Un equipo de especialistas en recursos humanos desea estudiar la relación entre la satisfacción laboral (X) y el rendimiento en el trabajo(Y). Para ello selecciona una muestra de 200 sujetos y les evalúa en cinco facetas de la satisfacción y en el rendimiento:

X1 = Satisfacción con el sueldo. X2 = Satisfacción con las condiciones ambientales en que se trabaja. con lalasautonomía oportunidades de promoción X34 = Satisfacción con para tomar decisiones propias. X5 = Satisfacción con el trato que se mantiene con el superior. Y = Rendimiento en el trabajo. Se desea averiguar qué facetas de la satisfacción tienen mayor relación con el rendimiento. Los estadísticos descriptivos y correlaciones entre las variables son:

R

X1 X2 X  3 X4 X5 Y

x'  40

 1 .00  0 .34 1 .00     0 .13 0 . 15 1 .00   0 .29 0 .20 0 .32 1 . 00     0 .24 0 . 15 0 . 27 0 .31 1 .00   0 .86 0 .18 0 .23 0 .31 0 .49 1 . 00  70 60 50  55  ; s'x  10 20 10   20 15 ; y  75 ; s y  20

Realice el análisis de regresión utilizando el lenguaje MATRIX.

Capítulo 4. Análisis de Componentes Principales 1. Introducción Según Flury (1988), el análisis de componentes principales (ACP) puede verse desde tres puntos de vista: (1) Como un método para transformar un conjunto de variables correlacionadas en otro de variables independientes; (2) Como un método para encontrar combinaciones lineales de variables con una variabilidad relativamente grande o pequeña; (3) como una herramienta para reducir los datos srcinales. El uso más común del ACP es una mezcla de los puntos (1) y (2). Es decir, el ACP tiene como objetivo transformar un conjunto de p variables correlacionadas (X1, X2, ..., Xp) en otro conjunto de p variables (Y1, Y2, ..., Yp) que son independientes y reproducen de forma exacta la estructura srcinal de la matriz de covarianzas. Para ello se utilizan los autovalores y autovectores de la matriz S (o de la matriz R). Las variables resultantes, denominadas componentes, son combinaciones lineales de las X1, X2, ..., Xp y se definen de forma jerárquica, de forma que el primer componente es el que explica la mayor varianza y el último la menor. El ACP tiene sus orígenes en Bravais (1846) y su forma de rotar una elipse a los ejes principales para obtener la independencia en una distribución normal multivariante; y más tarde en Pearson (1901) que lo concebía desde el punto de avista (3); y esen elFrisch (1933) ymultivariantes. Girschick (1936). El ACP menudo paso (1929), previo Hotelling a otros análisis Por ejemplo, el análisis de regresión múltiple, donde se requiere que las variables predictoras (X1, X2, ..., Xp) sean independientes (ausencia de colinealidad). Existen diversos manuales que tratan de forma monográfica el ACP. Pueden consultarse por ejemplo los de Dunteman (1989), Flury (1988) y Jackson (1991). El ACP es una técnica de análisis multivariante que no requiere asumir normalidad, aunque, si puede asumirse, la interpretación de los componentes es más sencilla y se pueden llevar a cabo pruebas de significación. En esencia, el ACP depende de la relación entre las variables X1, X2, ..., Xp, pues los componentes se calculan a través de los autovalores y los autovectores normalizados de la matriz S o R; donde los autovectores determinan la dirección de la máxima variabilidad de los componentes y los autovalores su varianza. Resumiendo, en el ACP: 1. No se establece ningún requisito sobre la distribución de las variables X1, X2, ..., Xp.


84

2. Los componentes Y1, Y2, ..., Yp son combinaciones lineales de las variables X1, X2, ..., Xp por lo que hay el mismo número de componentes que de variables. 3. Var(Yi) = a'i S ai tal que: Var(Y1)  Var(Y2)  ... Var(Yp). 4. Cov(Yi, Yi’) = 0. Es decir, no existen restricciones de linealidad entre los componentes. Por tanto, la matriz S (y por tanto R) tienen que ser definidas positivas y r(S) = r(R) = p.

2. Cálculo de los componentes Dado que X es la matriz de p variables correlacionadas medidas en n sujetos con media  y matriz de covarianzas S (con autovalores 1, 2, …, p y autovectores normalizados a1, a2, …, ap), los p componentes se calculan mediante: Y=XA

(4.1)

Donde A es la matriz de transformación que contiene los autovectores normalizados de la matriz S (o R). Puesto que la matriz A es ortogonal: Y'Y = (XA)'(XA) = A'A X' X = X'X. La ecuación (4.1) se expresa en términos matriciales mediante: 

YY11 YY12 22  21     Y n1 Y n 2

  

 1p YY2 p      Y np 

 XX 11  21     X n1

12 XX 22







X n2



 1p 11 XX 2 p   aa 21      X np   a p 1

12 aa 22







a p2



1p aa 2 p     a pp 

De donde se obtienen los componentes:

Yi1  Xa 1  X i1 a11  X i 2 a 21  ...  X ip a p 1 Yi 2  Xa 2  X i1 a12  X i 2 a 22  ...  X ip a p 2 

Yip  Xa p  X i1 a1 p  X i 2 a 2 p  ...  X ip a pp Cada uno de los componentes es una combinación lineal Yi = X ai. Por tanto, se vio en (1.17), cada componente tiene E(Yi) = ' ai ; Var(Yi) = a 'i S acomo i. El ACP establece que en la primera combinación lineal ( Y1) se maximiza la Var(X ai) dado que a'i ai = 1. Según lo visto en (1.15), la varianza del primer componente es: Var(Y1) = a'1 S a1 = a'1 1 a1 = 1. A continuación se describe el procedimiento de cálculo de los componentes a partir de la matriz S y de la matriz R.

AN LISIS DE COMPONENTES PRINCIPALES

85

2.1. Cálculo a partir de la matriz S

Los componentes Yi se obtienen en los siguientes pasos: 1) Cálculo de la matriz S, de covarianzas: S = X'X / (n – 1). 2) Cálculo de la matriz , de autovalores de S: S –  I = 0 (contiene los i). 3) Cálculo de la matriz A, de autovectores: (S – i I) ai = 0 (contiene los autovectores normalizados de S, tales que el primero corresponde a la mayor raíz latente de S). 4) Cálculo de la matriz F, de saturaciones: F = A 1/2. En puntuaciones típicas, las saturaciones son las correlaciones entre cada Xi y cada Yi, y se calculan mediante: F = R xy = D-1/2A 1/2. Por tanto, las saturaciones en puntuaciones típicas han de interpretarse pues su magnitud refleja la importancia de cada variable en cada componente, sin tener en cuenta las restantes variables. 5) Cálculo de la matriz de puntuaciones de los sujetos en los componentes: Y = X A. 6) Cálculo de la varianza de cada componente: Ya se ha visto que para cada componente Var(Yi) es una forma cuadrática de S: Var(Yi) = Y'Y / n –1 = (X ai)'(X ai)/ n –1 = a'i X'X ai / n –1 = a'i S ai = i. 7) Cálculo de la proporción de varianza explicada por cada componente: ci = i /  i. De esta forma  Var(Xi) = tr(S) =  i = tr( ) =  Var(Yi). 2.2. Cálculo a partir de la matriz R

Los componentes Yi se obtienen en puntuaciones típicas en los siguientes pasos: 1) Cálculo de la matriz R, de correlaciones: R = z'z / (n –1) = D-1/2 S D-1/2. 2) Cálculo de la matriz , de autovalores de R: R –  I = 0. 3) Cálculo de la matriz A, de autovectores: (R –  I) a = 0. 4) Cálculo de la matriz F, de saturaciones: F  R zxz y  A

1/ 2

.

5) Cálculo de matriz de puntuaciones típicas en los componentes: Zy = Zx -1/2 A

6) Cálculo de la varianza de cada componente:

Var(z yi ) 

1 1 1 z' y z y  A' z' z A  A' RA  (z x A)'(z x A)   1  1 n n n 1 x x


86

Donde Var(zyi)= a'i R ai = i (forma cuadrática de R) De esta forma,  Var(zi) = tr(R) =  i = tr() = p.

Cov ( z x , z y ) 

1 1 z 'x z y  z ' z A  RA  AA ' RA  A n 1 n 1 x x

7) Cálculo de la proporción de varianza explicada por cada componente: ci = i / p. Los resultados ambos laprocedimientos solo coinciden cuando las variables X1, X2, ..., de Xp tienen misma varianza, aunque los componentes obtenidos son diferentes. El ACP también tiene pruebas de significación sobre el valor de los autovalores y los autovectores de y sus intervalos de confianza. Aquí no se exponen dichas pruebas pues su complejidad excede a los objetivos de esta monografía. Para una buena revisión véase Anderson (1984, pág. 468-477). 2.3. Ejemplo

Las puntuaciones de 30 sujetos evaluados en las variables razonamiento numérico (X1) y razonamiento espacial (X2) han dado lugar a la siguiente matriz de covarianzas: 13 12  S   12 12  Cálculo de los componentes a partir de la matriz S: 1) Matriz de autovalores: 13 -  12 S - I    2  25   12 = 0 12 12 -  1

 24.5  2  0.5 ;



i

 24.5 + 0.5 = 25

0   24 . 5   0 . 5   0 2) Matriz de autovectores: ( S -  1 I ) a 1  13 - 24.5  12

12   a 11    0  12 - 24.5   a 21   0 

 11 . 5 a 11  12 a 21  0  a 11  1 .000  12 a 11  12 .5 a 21  0  a 21  0 .958


87

12   a 12   0  13 - 0.5 (S -  2 I ) a 2    ; 12 12 - 0.5   a 22   0  

12 .5 a12  12 a 22  0  a 22  1 .000  12 a12  11 .5 a 22  0  a12   0 .958 Normalizando de modo que a'1 a1 = a'2 a2 = 1:

12  0.958 2  1.385  0.958/1.38 5 0.722  0.692   1/1.385 A=  0.958/1.38 5 1/1.385  0.692 0.722   Por tanto: Y1 = X a1 = 0.722 X1 + 0.692 X2 Y2 = X a2 = -0.692 X1 + 0.722 X2 3) Matriz de saturaciones: F

A

1/2

0.722  0.692  24.5   0.692 0.722   0

0  3.573 - 0.484  0.5  3.427 0.505 

En típicas: 1/2

FD

1/2

A

1/ 13 0  3.573  0.484 0.9884 -0.1353   0 1/ 12  3.427 0.505   0.9859 0.1469 

4) Puntuaciones de los sujetos en los componentes: A continuación se presenta el cálculo de las puntuaciones en los componentes para los tres primeros sujetos:  3  2   3 .54 0 .63  0 .722  0 .692        2 .10  0 .75  Y  XA   1  2   4 4   0 .692 0.722   5 .64 0 .12      5) Varianza explicada por cada componente: F

3.573 -0.484  3.427 0.505 ;  

3.573 2  3.427 2  24.50  1  Var (Y1 ) -0.484 2  0.505 2  0.50    Var (Y ) 2

7) Proporción de varianza explicada por cada componente:

c1 

1 1

 2



24.5  0.98; 24.5  0.5

c2 

1 1

 2



0.5  0.02 24.5  0.5

2


88

Cálculo de los componentes a partir de la matriz R: 1) Matriz de correlaciones: R  D1/2SD1/2

1 13 0  13 12 1 13 0   1 0.96   12 12      0 1 12  0.96 1   0 1 12  

2) Matriz de autovalores: R  I

1

 10.96 10.96  (1   ) 2  0.962  0; 1  10..96 04 ;  2

 1.96

2

 0.04 ;



i

 1.096 0.004  

 1.96 + 0.04 = 2 tr ( R )  p.

3) Matriz de autovectores:

0 .96   a 11   0   1  1 .96 ( R  1 I )a 1    0 . 96 1  1 .96   a 21   0  

 0 . 96 a 11  0 . 96 a 21  0  a 11  1  0 . 96 a 11  0 . 96 a 21  0  a 21  1 1  0.04 0.96   a12  0  ( R   2 I )a 2       0.96 1  0.04   a 22  0  0 . 96 a 12  0 . 96 a 22  0  a 12   1  0 . 96 a 12  0 . 96 a 22  0  a 22  1 A

1  1 2   0 .707  0.707   2 1  0 .707 0.707  1  2 2 

4) Matriz de saturaciones: F  R z xz y

A

1/ 2

0.707  0.707  1.96   0.707 0.707   0 2

0  0.9898  0.1414  0.04 0.9898 0.1414 

2

Donde:  0 . 9898 2  0 . 9898 2  1 . 96   0 . 1414  0 . 1414  0 . 04 

1 2

5) Matriz de puntuaciones típicas en los componentes: Las puntuaciones típicas de los tres primeros sujetos en las variables son:


zx

1/2

 XD

89

 3/ 13  2 / 12      1/ 13  2 / 12  4 / 13 4 / 12   

Y las puntuaciones típicas en los componentes: -1/ 2

z y  zxA

3 13  2 12 0.712 0.900   0.707 0.707 1/ 1.96 0    13 42 12 12 0.707 0.707  0 1/ 0.04  10.145 .431 01.170 .060  41 13    

6) Varianza explicada por cada componente:

 0.707 0.707  1 0.96 0.707  0.707 1.96 0  Var(z yi )  A' RA       0.707 0.707 0.96 1  0.707 0.707   0 0.04 Donde:

0.707  0.707  1.96 0  1.39  0.03 Cov ( z x , z y )  A      0.707 0.707   0 0.04  1.39 0.03 

Cov ( z y1 , z y 2 ) 

1

 0 .712

29

 0 .900   0 .431 1 .145    1 .060   0  0 .170 

7) Proporción de varianza explicada:  c1



1 . 96 0.04  0 .98 ; c2   0.02 . 2 2

Este ejemplo demuestra que los resultados obtenidos a partir de la matriz S son distintos de los derivados de la matriz R. La siguiente tabla muestra las

diferencias entre ambos análisis: Resumen de los resultados del ACP del ejemplo 2.3. A partir de S A partir de R Pesos (A) Saturaciones (F) Pesos (A) Saturaciones (F) Variable a1 a2 zy1 zy2 a1 a2 zy1 zy2 X1 0.722 -0.692 0.9884 -0.1353 0.707 -0.707 0.9898 -0.1414 X2 0.692 0.722 0.9859 0.1469 0.707 0.707 0.9898 0.1414 24.5 0.5 1.96 0.04 i % varianza 98% 2% 98% 2%

90


Como se observa, las saturaciones coinciden en puntuaciones típicas tanto en la solución a partir de S como en la de R. La proporción de varianza explicada por cada componente también es la misma. Sin embargo, los autovalores no coinciden, pues indican varianzas de distintos tipos de puntuaciones. Asimismo, las puntuaciones en los componentes para los tres primeros sujetos fueron distintas aunque proporcionales (razón 3.5). La solución obtenida a partir de la matriz R es más sencilla de interpretar, sobre todo cuando las variables están medidas en tipos de escalas muy diferentes.

3. Geometría de los componentes Geométricamente, las combinaciones lineales definidas en Y = X A representan un nuevo sistema de coordenadas que se obtiene rotando o girando de forma ortogonal el sistema de los ejes X1, X2, ..., Xp a través del srcen. De esta forma se obtienen los nuevos ejes Y1, Y2, ..., Yp. La rotación es ortogonal porque A es una matriz ortogonal, que en el caso de dos componentes puede expresarse mediante:

cos  sen    sen cos 

A

A La de matriz losprimer ejes X1componente , X2, ..., Xp a reúna través el delmáximo srcen undeángulo de  grados modo rota que el la varianza contenida en los datos y el segundo la varianza restante.

En el ejemplo del apartado 2.3. se obtuvo la matriz de transformación ortogonal: A

  0.69

Donde:

0.72  0.69  0.72 

cos   0 . 72      44º sen   0 . 69 

A ha rotado los ejes X1 y X2 a través del srcen un Pordetanto, la matriz ángulo 44 grados, de modo que el primer componente explique el máximo de la varianza contenida en los datos y el otro la varianza restante. Este efecto puede observarse en la figura 4.1. que es una representación gráfica de la rotación con los datos de los 30 sujetos dados en puntuaciones diferenciales.


91

x2

y1  

  





 





 



44º





x1

   

 









 

 

y2 Figura 4.1. Representación gráfica del ACPdel ejemplo 2.3.

Como se observa en la figura 4.1., los ejes se han girado un ángulo de 44º de modo que el componentey1 tiene una gran variabilidad y el componente y2 una variabilidad muy pequeña. Si el propósito de este análisis fuera la reducción de datos, podría afirmarse que las variables x1 y x2 pueden resumirse en el componentey1. Asimismo, la figura 4.1.lasmuestra una elipseDe centrada en con el srcen que contiene dentrotodos de sí los el 80% de observaciones. acuerdo la normal bivariante, puntos de la elipse tienen igual densidad (véase figura 2.4. de capítulo 2). Por tanto, este tipo de diagramas también pueden informar sobre el cumplimiento del supuesto de normalidad.

4. El análisis de componentes principales y el lenguaje MATRIX del SPSS En la mayoría de los paquetes estadísticos el ACP aparece en el mismo menú que el análisis factorial. Este es el caso del programa SPSS. Cuando se dispone de los datos srcinales sobre las variables observadas, se introducen en el editor de datos del SPSS y se utiliza el procedimiento Análisis Factorial ‘método de extracción componentes principales’ para estimar los componentes del modelo (para más detalle véase Pardo y Ruiz, 2002). Cuando no se dispone de los datos srcinales y sólo se conoce la matriz o la matriz S, el ACP se puede llevar a cabo mediante el lenguaje MATRIX del SPSS. La sintaxis para llevar a cabo el ACP con los datos del ejemplo del apartado 2.3. a partir de la matriz R se muestra en el cuadro 4.1. R


92

Matrix data var x1 x2 /FORMAT lower diag/cont CORR /n=30. BEGIN DATA. 1.00 .96 1.00 END DATA. FACTOR /MATRIX=in(COR=*) /MISSING LISTWISE /ANALYSIS x1 x2 /PRINT INITIAL EXTRACTION /CRITERIA FACTORS(2) ITERATE(25) /EXTRACTION PC /METHOD=CORRELATION .

Cuadro 4.1. Sintaxis del lenguaje MATRIX para el ejemplo 2.3 a partir de la matriz R

Al ejecutar esta sintaxis, los resultados se muestran tanto en el Editor de datos (ver figura 4.2.) como en el visor de resultados del SPSS.

Figura 4.2. Fichero de datos que genera el SPSS con la sintaxis del cuadro 4.1.

En el visor de resultados los resultados obtenidos son los siguientes: Comunalidades

X1

Inicial 1.000

Extracción 1.000

X2

1.000

1.000

Método de extracción: Análisis de Componentes principales. Varianza total explicada

Autovalores iniciales Componente 1

Total 1.960

% de la varianza 98.000

2

4.000E-02

2.000

Sumas de las saturaciones al cuadrado de la extracción

%a cumulado 98.000

Total 1.960


% acumulado 98.000

100.000

4.000E-02

2.000

100.000

Método de extracción: Análisis de Componentes principales.


93

Matriz de componentes a Componente X1

1 .990

2 -.141

X2

.990

.141

Método de extracción: Análisis de componentes principales. a. 2 componentes extraídos

La tabla ‘Comunalidades’ muestra la varianza inicial (la de las Xi) y la varianza que queda explicada de éstas por los componentes extraídos (los Yi), que es la misma puesto que el ACP reproduce de forma exacta la estructura srcinal de la matriz de correlaciones. La tabla ‘ Varianza total explicada’ indica que se han extraído dos componentes: el primero explica el 98% de la varianza (donde 1 = 1.96) y el segundo el 2% restante (2 = 0.04). Por tanto, el primer componente es el que contiene la mayor información. La tabla ‘Matriz de componentes’ muestra la matriz de saturaciones ( F). Es decir, las correlaciones entre cada variable y cada componente, que coinciden con las calculadas más arriba mediante álgebra de matrices. Para llevar al cabo el ACP a partir de la matriz S, se utiliza la sintaxis del cuadro 4.2. Como se observa, el cambio radica en que se introduce la matriz S en lugar de la matriz R y se indica el comando COVARIANCE en /MATRIX y /METHOD. Matrix data var x1 x2 /FORMAT lower diag/cont COVARIANCE /n=30. BEGIN DATA. 13 12 12 END DATA. FACTOR /MATRIX=in(COVARIANCE=*) /MISSING LISTWISE /ANALYSIS x1 x2 /PRINT INITIAL EXTRACTION /CRITERIA FACTORS(2) ITERATE(25) /EXTRACTION PC /METHOD=COVARIANCE .

Cuadro 4.2. Sintaxis del lenguaje MATRIX para el ejemplo 2.3 a partir de la matriz S

Los resultados que ofrece el SPSS al ejecutar esta sintaxis incluyen los autovalores y la matriz F obtenidos tanto a partir de S (solución Bruta) como a partir de R (solución Reescalada):


94

Comunalidades Bruta

Reescalada

X1

Inicial 13.000

Extracción 13.000

Inicial 1.000

Extracción 1.000

X2

12.000

12.000

1.000

1.000

Método de extracción: Análisis de Componentes principales.

Varianza total explicada Sumas de las saturaciones al cuadrado de la extracción

a

Autovalores iniciales

Bruta

Componente Total 1 24.510 2 .490

Reescalada 1


% acumulado 98.042

Total 24.510


% acumulado 98.042 100.000

1.958

100.000

.490

1.958

24.510

98.042

98.042

1.961

98.035

98.035

.490

1.958

100.000

3.9E-02

1.965

100.000

2

Método de extracción: Análisis de Componentes principales. a. Al analizar una matriz de covarianza, los autovalores iniciales son los mismos en la solución bruta y en la reescalada.

Matriz de componentes a Bruta Componente

Reescalada Componente

X1

1 3.573

2 -.484

1 .991

2 -.134

X2

3.427

.505

.989

.146

Método de extracción: Análisis de componentes principales. a. 2 componentes extraídos


95

5. Ejercicios 1.

Se ha evaluado a 9 empleados de una empresa su grado de perturbaciones somáticas (X1) y su nivel de estrés (X2) ante una situación de hablar en público con el fin de cubrir dos vacantes en el área de formación del departamento de recursos humanos. Los resultados obtenidos en ambas pruebas en puntuaciones diferenciales han sido los siguientes: Sujeto: x1: x2:

1 -8 -1

2 6 10

3 0 0

4 -2 -10

5 8 1

6 0 3

7 -6 -6

8 0 -3

9 2 6

Obténgase dos nuevas variables, cada una combinación lineal de las dos variables evaluadas, que sean independientes. Realice para ello un ACP tanto a partir de la matriz S como de la matriz R. Comente los resultados y represente gráficamente los ejes srcinales y los nuevos ejes de forma similar a la figura 4.1. 2.

El departamento de recursos humanos de una empresa está investigando las actitudes de los empleados hacia su organización. Para ello ha administrado un test a una muestra de 200 empleados extraídos al azar. El test incluye preguntas sobre la actitud hacia diez aspectos de la organización:

X1: Tener un sueldo competitivo X2: Tener un puesto de trabajo estable X3: Tener claro lo que se espera de mí X4: Poder tomar decisiones propias X5: Poder aportar y poner en práctica ideas X6: Poder planificar el trabajo X7: Cumplir con objetivos X8: Tener oportunidades claras de promoción X9: Recibir reconocimiento público por el trabajo X10: Sentirse importante en el grupo de trabajo Los miembros del departamento de recursos humanos necesitan que todas las variables sean independientes. Para ello, han llevado a cabo un ACP a partir de la matriz R. ¿Podría decirse que los resultados obtenidos apoyan su propósito?


96

Para resolver este ejercicio se necesita utilizar el lenguaje MATRIX del SPSS y disponer de la matriz de correlaciones entre las variables, que se presenta a continuación:

X1 X2 X3

1.00 0.54  0.43  X 4 0.59 X 5 0.24 R  X 6 0.26 X 7 0.20  X 8 0.12 X 9  0.11 X 10 0.25

1.00 0.56 1.00 0.50 0.25 0.39 0.34 0.39 0.36 0.53

0.53 0.47 0.44 0.24 0.18 0.26 0.39

1.00 0.32 1.00 0.49 0.59 0.30  0.05 0.16  0.05 0.19 0.38 0.28 0.27

1.00 0.24 0.15 0.48 0.50

         1.00  0.60 1.00   0.16 0.15 1.00  0.35 0.29 0.70 1.00

Capítulo 5: Análisis Factorial 1. Introducción El análisis factorial (AF) es una técnica que tiene como objetivo transformar un conjunto de p variables observadas X1, X2, ..., Xp que están relacionadas en otro conjunto de q factores f1, f2, ..., fq que las resuman. Se pretende explicar e interpretar la covariación existente entre las variables en función de los factores que subyacen a dicha covarianza. El ACP y el AF a menudo se confunden. La diferencia básica entre ambos es que en el ACP no se asume ningún modelo estadístico (Kendall, 1980) y el objetivo es explicar la varianza total de las variables mientras que el AF necesita asumir diferentes supuestos pues se basa en un modelo estadístico y el objetivo que se pretende es explicar la estructura de covarianza de las variables observadas. Asimismo, el AF utiliza pruebas de bondad de ajuste para valorar el grado en que el modelo estimado reproduce los datos observados (para más detalles sobre las diferencias entre el AF y el ACP véase Tatsuoka y Lohnes, 1988). El AF ha sido especialmente utilizado en psicología y otras ciencias sociales. Sin embargo, su uso ha provocado cierta controversia y algunos autores incluso lo desaconsejan (véase Reyment, Balckith y Campbell, 1984 para un revisión sobre este tema). Pese a esta controversia, el AF se sigue empleando porque resulta útil para reducir la información relativa a un conjunto inicial de variables y definir constructos. Existe un gran número de manuales sobre análisis factorial. Entre otros, el clásico de Mulaik (1972) y los de Basilevsky (1994) y Lewis-Beck (1994). En castellano, puede consultarse el de Ferrando (1993) y el de García, Gil y Rodríguez (2000). El modelo factorial general puede escribirse (en puntuaciones diferenciales) mediante: X1 = 11 f1 + 12 f2 + … + 1q fq + 1 X.2 = 21 f1 + 22 f2 + … + 2q fq + 2 .. Xp = p1 f1 + p2 f2 + … + pq fq + p (5.1) En notación matricial: X = f + (5.2) Donde:  X = [X1, X2, ..., Xp] es el vector de p variables observadas con media 0 y matriz de covarianzas . f = [f1, f2, ..., fq] es un vector de q factores con media 0 y matriz de  covarianzas I.


98 



 es la matriz de orden p x q que contiene los j o saturaciones de las variables en los factores (también denominada matriz de configuración). = [1, 2, ..., p] es un vector de errores aleatorios con media 0 y matriz de covarianzas .

Por tanto, las variables observadas se expresan en términos de las variables f1, f2, ..., fq, 1, 2, ..., p que son no observadas (o latentes). Esta es una de las principales características que distinguen al modelo factorial del modelo de regresión definido en (3.2), donde las variables independientes son observadas. El AF, a diferencia del ACP, requiere el cumplimiento de supuestos sobre el modelo: 1. Puesto que el objetivo es explicar la estructura de covarianza de las variables observadas, se asume que E( X) = 0, que r( ) = p, y que E(f) = E( ) = 0. 2. La varianza de los factores es 1; no así la de los errores, denominada i. 3. Los errores son independientes entre sí y de los factores:  1  0    Cov( , f) = 0



  0







 p 

 

4. Los factores son independientes aunque pueden estar correlacionados tras la rotación (ver apartado 5.1.). 5. Aunque no es imprescindible, suele asumirse que tanto los factores como los errores siguen una distribución normal multivariante. Esto implica que X también es normal multivariante. Estos supuestos y las relaciones planteadas en la ecuación (5.2) constituyen el modelo factorial general. Los parámetros del modelo son las saturaciones y las varianzas error. En el AF se pretende encontrar los factores que expliquen la varianza que es común a las variables. Dado que los factores son independientes y con varianza 1, tomando la expresión (5.2), la varianza de cualquiera de las variables es:

Var ( X i )   i21   i22  ...   iq2  Var ( i ) Por tanto:

Var ( X i ) 

q

 i 1

2 ij



i

(5.3)

AN LISIS FACTORIAL

99

Si en lugar de trabajar a partir de la matriz de covarianzas se trabaja a partir de la matriz de correlaciones, como ocurre en la práctica, se utilizan puntuaciones típicas y la expresión (5.3) queda como:

Var ( z i )  1 

q



2 ij



i

i 1

Por tanto, la varianza de una variable observada puede descomponerse en dos partes: (1) 1) hi2 : la varianza que es común con otras variables, llamada comunalidad, donde:

h i2 

q



2 ij



 'i  i es la suma de cuadrados de las filas de la matriz

.

i 1

2) i: la varianza propia (de cada variable) y la error, llamada unicidad, donde: i

 1  h i2

De la ecuación (5.2) también se deduce que: q



Cov ( X i , X i ' ) 

ij  i ' j

j 1

Según esto, la matriz de covarianzas de X puede expresarse mediante: = E(X'X) = E[( f + e)'( f + e)] = E[(f ' ' + e') ( f + e)] = = ' E(f f ') + ' E(f 'e) + E(e' f) + E(e'e) = ' + (5.4) En el caso de un modelo con un factor:  1   1 0   '    2  1  2   p             p   0 12

 12   22   2 1     p 1  p 2

 1 p 







 

1 0  0  2  p   2      2   0 0  p  



0 

2

 





0



0  0       p 

0   1 12 0   2 1 22  2         12

 

p

   p 1

 p 2

   

  2  p     2 1 p

 p  p 

La expresión (5.4) es de vital importancia para el AF pues demuestra que los factores explican los términos que están fuera de la diagonal principal de (1)

Nótese que en el ACP no se hace distinción entre parte común y residual, pues se reproduce la varianza total de las variables que intervienen en el análisis.


100

 (las covarianzas) de forma exacta porque es diagonal. Asimismo, establece que el cálculo de las saturaciones factoriales es equivalente a la factorización de la matriz de covarianzas de X, con la condición de que los elementos diagonales de no sean negativos. El análisis factorial también puede llevarse a cabo a partir de la matriz de correlaciones donde: = En este caso

'+

' es la matriz reducida R*:  h2  1 r * R   21     r p1

r12 h22







rp 2





r1 p   r2 p 

   h 2p  

'

y contiene las comunalidades hi2 en su diagonal principal. Ejemplo 1: Modelo de un factor Se han medido tres variables: X1, X2 y X3 en una muestra de 200 sujetos. Se desea llevar a cabo un AF de un factor a partir de la matriz de correlaciones: R

0 .83 0 .78   1   0 .83 1 0 .67   0 .78 0 .67 1 

Dado que p = 3 y q = 1, según la expresión (5.1):

X 1 =  1 f1 +  1 X 2 =  2 f1 +  2 X 3 =  3 f1 +  3 Puesto que la estructura de la matriz R implica que = ' + : 0   1   1 0       2   1  2  3    0  2 0   R  '  12   1  2  1  3 

  3  1  2  22  2 3

1  3 

 1    2 3   0  2  3   0

0 2

0

0  3   0 1  2  12   1   2 2   2   1 2  3   1  3  2 3 0 0

   2 3   23   3  1  3

AN LISIS FACTORIAL

101

Por tanto, hay seis ecuaciones y seis incógnitas: 1  12   1 0 . 83  1  2 0 . 78  1  3 1   22   2 0 . 67   2  3 2

1  3   3 El par de ecuaciones 0.78  13 ; 0 . 67   2  3 implica que:  2  0.67 / 0,781 . Sustituyendo en la ecuación 0 . 83   1  2 se llega a:  12

 0.83 0.78  /0.67  0.966;

1

 0 . 983

Del mismo modo:  22  23

 /0.78  0.713;  0.83 0.67  /0.83  0.630;  0.78 0.67

2 3

 0 . 844  0 . 794

De donde se deduce que: 1

 0 . 034 ;

2

 0 .287 ;

3

 0 .370

Por tanto, matriz reducida (con las comunalidades en la diagonal principal) es la la siguiente: R

*

 0.983    '  0 .844  0.983 0.844 0 .794   0 .794 

0.966 0 .830 0 .780  0.830 0.713 0 .670    0.780 0 .670 0 .630 

Y la matriz con las unicidades:

0  0.034 0    0 0.287 0   0 0 0.370 Por lo que la matriz de correlaciones queda reproducida del siguiente modo: R

0   1 0.83 0.78 0.966 0.830 0.780 0.034 0 '  0.830 0.713 0.670   0 0.287 0   0.83 1 0.67 0 0.370 0.78 0.67 1  0.780 0.670 0.630  0

En este ejemplo la matriz de correlaciones reproducida por el modelo es idéntica a la matriz de correlaciones de la muestra por lo que el ajuste del

102


modelo es perfecto. Esto no es cierto en general pues la bondad de ajuste del modelo depende de la diferencia entre ambas matrices. En síntesis, el modelo factorial asume que las varianzas y covarianzas de X pueden reproducirse a partir de las pq saturaciones ij y de las p unicidades i. Cuando p = q, cualquier matriz  se reproduce de forma exacta mediante ' pues la matriz es la matriz nula 0. Cuando q < p, el modelo factorial es más útil puesto que proporciona una explicación de la covariación en X más

parsimoniosa.

2. Métodos de extracción de factores Los diferentes métodos de extracción de factores intentan estimar los parámetros del modelo (5.2). El objetivo es encontrar el modelo factorial que represente los datos a partir del mínimo número de factores y verifique la estructura de covarianza especificada en la ecuación (5.4). Aquí se exponen cuatro de los métodos más utilizados. La elección de un método u otro depende del objetivo del investigador, del cumplimiento de los supuestos del modelo y de la utilización o no de estadísticos de bondad de ajuste. Los métodos se describen con el cálculo a partir de la matriz R, aunque el procedimiento es apropiado también a partir de la matriz S. 2.1. Método de componentes principales

Este método se utiliza para formar combinaciones lineales independientes de las variables observadas de modo que la primera (el primer factor) obtenga la varianza máxima y que p = q y por tanto: i = 0 para todo i. El método CP, a diferencia de los restantes, utiliza la matriz R para calcular la matriz de saturaciones y obtener la solución factorial inicial. Al haber tantos componentes como variables, los componentes explican toda la varianza. Dado que este método es una simple transformación directa de las variables observadas, no se realiza ninguna estimación de las comunalidades ni se utiliza ningún criterio estadístico para determinar el número de factores. El procedimiento es similar al visto en el ACP (ver apartado 4.2.): 1) Calcular la matriz de correlaciones: R = ' + = '. 2) Calcular la matriz de autovalores : R – j I = 0 (donde j es un R). 3) autovalor Calcular ladematriz de autovectores A: (R – j I) aj = 0 (donde aj es u autovector de R). 4) Calcular la matriz de saturaciones: = A 1/2 (o matriz de configuración). 5) Calcular las puntuaciones factoriales: Zy = Zx (cálculo directo, sin estimación).

AN LISIS FACTORIAL

103

6) Calcular la varianza y la proporción de varianza de cada factor extraído p Var ( f )  2   '  . Es la suma de cuadrados de las columnas de la j



ij

j

j

j

matriz . La proporción de varianza explicada por cada factor es: j / p. Considérese el método de extracción CP para los datos del ejemplo 1. La matriz de autovalores es: 0 0   2 .522 0 .334 0  .   0 0 0 .144   0 De donde se obtiene la matriz de saturaciones:

 0 .951  0 .066   0 .910  0 .364  0 .888 0 .444

 0 .301  0 .199  0 .118 

De la matriz se deduce que cada una de las comunalidades es 1 y las unicidades son 0:

h12  0.951 2  ( 0.066 ) 2  ( 0.301) 2  1 ;  1  0 h 22  0 . 91 2  (  0 . 364 ) 2  0 . 199 2  1 ;  2  0 3  0 h 32  0 . 888 2  0 . 444 2  0 . 118 2  1 ; La varianza del cada factor también puede deducirse de :

 0 .951 2  0 .910 2  0 .888 2  2 .522  2  (0.066) 2  (0.364) 2  0.4442  0.334 1

3

 (  0 .301 ) 2  0 .199 2  0 .118 2  0 .144

Por tanto, el modelo explica toda la varianza de las variables observadas y: R

0.951  0.066  0.301  0.951 0.910 0.888  1 0.83 0.78 ' 0.910  0.364 0.199   0.066  0.364 0.444 0.83 1 0.67 0.888 0.444 0.118   0.301 0.199 0.118 0.78 0.67 1 

= 0. La solución CP extrae tantos factores como variables pero suele ser preferible obtener un modelo que explique la estructura de covarianza con pocos factores. Si los últimos autovalores son pequeños es posible emplear este método para q < p. Según se ha visto en el ejemplo 1, los autovalores 2 y


104

3 son muy pequeños (0.33 y 0.14). Si en lugar de tomar todos los factores sólo se considera el primero, la matriz de saturaciones es: 0.951 h12  0.9512  0.904; 1  0.096    0.910 . Donde h22  0.910 2  0.828;  2  0.172 y 1/p = 2.522/3 = 0.84 h 2  0.888 2  0.789; 3  0.211 0.888  3 En este caso, R = R

'+

y i = 1 – hi2 para todo i. Es decir:

0   1 0.83 0.78 0.966 0.830 0.780 0.034 0 '  0.830 0.713 0.670   0 0.287 0   0.83 1 0.67 0 0.370 0.78 0.67 1  0.780 0.670 0.630  0

Por tanto, el modelo de un factor explica el 84% de la varianza total y las comunalidades (0.90, 0.83 y 0.79) indican que el modelo da cuenta de un amplio porcentaje de varianza explicada de cada variable. 2.2. Método de ejes principales

Este método es igual al CP pero utiliza la matriz R*, o matriz reducida, que es la matriz de correlaciones srcinal que sustituye los 1 de su diagonal principal por las estimaciones iniciales de las comunalidades. Al utilizar la *

R , se factoriales matriz analiza solamente la variabilidad las de variables. saturaciones resultantes se utilizancomún para entre estimar nuevo Las las * comunalidades y reemplazar las estimaciones iniciales en R .

En este caso el procedimiento es similar al del método CP: 1) Calcular la matriz reducida: Puesto que las unicidades i se eliminan de la diagonal principal, la matriz resultante es: R* = R – = '. 2) Existen diversos procedimientos para estimar las comunalidades, hi2. El más utilizado es la correlación múltiple entre la variable Xi y las p – 1 restantes variables. Es decir: h * i2  1   i*  1  1 . Donde rii son los

rii

-1

elementos diagonales de la matriz R . Este procedimiento tiene la ventaja 2 de que las h * i pueden obtenerse incluso cuando r(R)  p. *

3) 4) 5) 6)

*

A 1/2 1/2 Calcular R – j I= 0; (R – j I) aj = 0; y R* = ' =lasAmatrices A' y= A. Donde A'. 1/2 Calcular la matriz factorial: = A . r Calcular la matriz reproducida: R = '+ Calcular la matriz residual (sin la diagonal principal): Re = R* – Rr = R* – '

AN LISIS FACTORIAL

105

7) Calcular la varianza y la proporción de varianza de cada factor extraído a partir de la matriz  y el cociente j / p. Considérese ahora el método de extracción EP para los datos del ejemplo 1. Para obtener la matriz R*, primero hay que estimar las comunalidades iniciales, mediante:  h *12  1  (1 / 4 .543 )  0 .78  4.543  2.534  1.846  2   1 R   2.534 3.228  0.186 . Donde  h * 2  1  (1 / 3 .228 )  0 .69  h * 32  1  (1 / 2 .564 )  0 . 61   1.846  0.186 2.564   Por tanto: R

*

 0 .78 0 .83 0 .78    0 .83 0 .69 0 .67   0 .78 0 .67 0 .61 

Una vez extraídos los autovalores y autovectores de la matriz R*, se obtiene la matriz de saturaciones:  0 . 982   A 1 / 2   0 . 845   0 . 794  Las estimaciones finales de las comunalidades son: h12  0.982 2  0.963 , h22  0.845 2  0.714 y h32  0.7942  0.630; y de las unicidades: 1  0.037 ,  2  0.286 y  3  0.37 . La varianza del primer factor es: 1  0.982 2  0.845 2  0.794 2  2.522 ; y la proporción de varianza del primer factor: 1 / p = 2.522 / 3 = 0.84. Las matrices reproducida y residual son las siguientes:  0 . 9635 0 .8295 0 .7793    r R   0 . 8295 0 .7142 0 .6710     0 .7793 0 .6710 0 .6304   Re

0.0005

0.0007 

 0.0005  0.0010   0.0007  0.0010 

Como se observa, al igual que con el método CP, el modelo de un factor explica el 84% de la varianza total. Sin embargo, las saturaciones y por tanto las comunalidades y unicidades toman valores distintos.


106

2.3. Método de máxima verosimilitud

El método MV consiste en encontrar la solución factorial para la cual la probabilidad de las correlaciones observadas sea máxima (Lawley & Maxwell, 1971). Para ello se asume que la muestra procede de una distribución normal multivariante. Este supuesto no es necesario para los anteriores métodos de estimación. Si f y  son normales, entonces las variables X = f + también son normales. Como se ha visto en la sección 3.1. la función de verosimilitud es:

L ( , )  ( 2 )  (2 )

1  ( n 1) p 2





n 1 2



np 2

e





  1  tr     2  

n 2

e

1   tr  2 

 1 

 



n

( X i  X )( X i  X )'  n ( X   )( X   )'    i 1  

n    ( X i  X )( X i  X )'    i 1 

1 



 (2 )



p 2



1 2

  n (X )   2

 e

1



( X   )'

Esta expresión depende de y . Para estimar la matriz de saturaciones se impone la siguiente condición: = '

-1

El procedimiento es similar a los anteriores, pero en este caso se j I= de soluciona por el polinomio 0; las quevariables. hace queEslasdecir: correlaciones se Rla1 –unicidad ponderen el inverso de R1 =

-1

R

-1

Las estimaciones ˆ y ˆ se obtienen maximizando la función de verosimilitud. Para ello se emplea un algoritmo iterativo que permite que R1 se reajuste en cada etapa de modo que el mayor peso se atribuye a las variables con mayor comunalidad. Este método proporciona la mejor estimación de la matriz Rr y genera una prueba de significación chi-cuadrado para valorar la bondad de ajuste del modelo (ver apartado 4). Para obtener las estimaciones por el método MV es necesario emplear un programa de ordenador. En el apartado 8 se muestra un ejemplo en el que se aplica el método de estimación de máxima verosimilitud a los datos del ejemplo del apartado 7 mediante el lenguaje MATRIX del SPSS. 2.4. Método de mínimos cuadrados generalizados

El método MCG también es un procedimiento iterativo. En este caso se minimiza la suma de los cuadrados de las diferencias entre las matrices de correlación observada y reproducida:  (R – Rr)2. Las correlaciones se ponderan por el inverso de su unicidad, de manera que las variables que

AN LISIS FACTORIAL

107

tengan un valor de unicidad alto reciban un peso menor que aquellas que tengan un valor bajo de unicidad. Tanto este método como el método MV generan una prueba de bondad de ajuste chi-cuadrado. Los dos primeros métodos se caracterizan por maximizar la varianza explicada y los dos últimos por ser iterativos y ofrecer una prueba de significación estadística para valorar si el modelo factorial obtenido se ajusta adecuadamente a las correlaciones observadas.

3. Contrastes sobre la adecuación del análisis factorial Antes de llevar a cabo un análisis factorial es necesario estudiar si la matriz de correlaciones cumple las condiciones suficientes para ser factorizada. Una de ellas es que las variables estén relacionadas. La prueba de esfericidad de Bartlett contrasta si la matriz R es una matriz identidad (H 0:  = I) mediante el estadístico:

X

2

 K Ln Q

Donde K   (n 1)  2 p  5  2q y Q 6 3

ˆ r  1  ˆ p

 ˆr  1    ˆ p   p q 

   

p q

El estadístico X2 se distribuye según 2 con (p2 – p)/2 grados de libertad. Si el valor de X2 es significativo, tiene sentido o es adecuado realizar un análisis factorial. Si no lo es, debería cuestionarse su uso. También puede emplearse la medida de adecuación muestral de KaiserMeyer-Olkin que compara las correlaciones observadas con las correlaciones parciales entre las variables mediante el estadístico:

r  r a 2 ij

KMO

i j 2 ij

i j

2 ij

i j

Donde rij es el coeficiente de correlación simple entre las variables xi y xj ysuma aij es de el coeficiente de correlación parcial entre esas mismasesvariables. la los cuadrados de las correlaciones parciales pequeñaSi en comparación con la de las correlaciones, el valor del índice KMO estará próximo a 1. Si los valores de KMO son pequeños, el uso del análisis factorial es cuestionable. Según Kaiser (1974), valores superiores a 0.80 son buenos, a 0.70 medios y por debajo de 0.50 inaceptables.


108

4. Reglas para la selección de factores Los criterios que se han utilizado tradicionalmente para decidir sobre el número de factores a retener en un análisis factorial exploratorio son que la proporción de varianza explicada por los factores sea al menos de 0.50 y que se cumpla la regla de Kaiser, según la cual se seleccionan solamente aquellos factores cuyos autovalores sean mayores o iguales que 1. También puede confeccionarse el gráfico de sedimentación, que incluye los p factores en el eje de abscisas posibleEnde valores de sus puede correspondientes autovalores en el yejeelderango ordenadas. el ejemplo inferior verse que, siguiendo la regla de Kaiser, solamente se seleccionarían dos de los siete posibles factores. Gráfico de sedimentación 2.5 2.0 r o l a v to u A

1.5 1.0 .5 0.0 1

2

3

4

5

6

7

Número de factor

Sin embargo, la regla de Kaiser apenas se utiliza hoy en día porque el hecho de que un factor explique poca varianza no significa que no esté presente en el modelo. Actualmente los criterios empleados para decidir sobre el número de factores son los contrastes de hipótesis sobre la bondad de ajuste del modelo y el análisis de los residuos. El modelo factorial no siempre reproduce de forma exacta la matriz de correlaciones observada. Para determinar si el ajuste entre la matriz srcinal y la reproducida es adecuado, se utiliza un contraste sobre la bondad de ajuste del modelo. La hipótesis nula plantea que la matriz de correlaciones en la población es igual que la matriz reproducida por el modelo (H0: = Rr). El estadístico de bondad de ajuste se calcula mediante: 1

X2 = N { lnRr  lnR + tr( RR r )  p} Donde N es el tamaño de la muestra, Rr = ' + y p el número de variables observadas. El estadístico X2 se distribuye aproximadamente según 2 con 1/2 [(p – q)2 – (p + q)] grados de libertad. Si el valor del estadístico es significativo, los datos observados se desvían significativamente del modelo factorial. La prueba X2 es muy sensible al tamaño muestral, de forma que con muestras randes rácticamente cual uier modelo sería rechazado. Por esta

AN LISIS FACTORIAL

109

razón se han desarrollado otros índices que evalúan el ajuste relativo del modelo. Entre los más empleados están el índice RMSEA de Steiger y Lind (1980) y Steiger (1990) y el índice NNFI de Tucker y Lewis (1973). El primero consiste en la raíz cuadrada del cociente [(X2 – gl) / N] / gl. Según Browne y Cudeck (1992) valores inferiores a 0.05 indican un buen ajuste global, entre 0.05 y 0.08 un ajuste razonable, entre 0.08 y 0.10 un ajuste moderado y superiores a 0.10 un ajuste mediocre. También es conveniente realizar un análisis detallado de los residuos de los elementos que se encuentran fuera de la diagonal principal de la matriz Re. Según Harman (1980), existe un buen ajuste si los residuos no toman valores absolutos mayores que 0.05.

5. Rotación de factores La rotación de la solución factorial se realiza para mejorar la interpretación de los valores que presenta la matriz factorial ( ) tras la extracción. Esta idea la propuso Thurstone (1935) para solucionar el problema de la situación topológica de los factores. Su conocido “principio de estructura simple” plantea que se obtengan factores con algunas saturaciones muy altas y muchas saturaciones bajas y además que: 1) cada fila tenga al menos un 0; 2) si se han extraído q factores, que cada columna tenga al menos q ceros; 3) cada par de columnas tenga variables cuyas saturaciones sean altas en una pero no en otra; (4) si hay 4 ó más factores, cada par de columnas tenga muchas variables con saturaciones nulas en ambas; y (5) que para cada par de columnas haya pocas variables con saturaciones no nulas en ambas. Si en un análisis factorial se extraen dos factores mediante el método de máxima verosimilitud y se obtiene la matriz factorial:

0 .35 0.65  0.23 0.78    0.82  0.36     0.91  0.12  Lo ideal sería que la rotación permita llegar a la matriz: 

R

0 0   1  1

1 1  0  0


110

Para alcanzar esta estructura (a la que se ha denominado R: matriz factorial rotada) hay que obtener una matriz de transformación ( T) que, tras multiplicarse por la matriz factorial no rotada ( T) sea capaz de generar otra matriz factorial ( R) que cumpla el principio de Thurstone, sin que cambie la varianza explicada por el modelo ni el valor de las comunalidades y unicidades. Para cumplir este objetivo hay dos procedimientos que se exponen a continuación. 5.1. Rotación ortogonal

Este procedimiento implica que los factores de la matriz se rotan todos en un mismo ángulo ( º). De este modo, los ejes factoriales forman un ángulo recto y por tanto los factores resultantes también son ortogonales. Para llevar a cabo esta rotación se aplica la transformación ortogonal: R



T

En el ejemplo anterior, como q = 2, la transformación sería: T

 cos     sen 

cos 

y T    sen 

sen   si los ejes se rotan en el sentido del reloj cos    sen   si se rotan en sentido contrario al reloj  co s  

Dada la matriz de saturaciones del ejemplo anterior, las comunalidades son:

h12  0.35 2  0.65 2  0.55 ;

h22  0.23 2  0.78 2  0.66 ; h  0.82  (  0.36 )  0 .80 ; h42  0.912  ( 0.12) 2  0.84 . 2 3

2

2

Si los factores se rotan un ángulo de 20 grados en sentido del reloj se obtiene la matriz factorial rotada:

R

0.35  23 00..82  0.91

0.65   h12  0 .55  0.11 0.73   2     Donde: 342 00.89 .05 00.81  h22  0 .66 00.78 .36 00.937 .342 00..937 .06   h3  0 .80     h42  0 .84 0 . 90 0 . 20  0.12  

Gráficamente:

AN LISIS FACTORIAL

111

F2

F*2

1

0,5 -





20º



0,5

1

 

F1 *

F1

-0,5 -1 -

Los cuatro puntos de la gráfica representan los pares de saturaciones factoriales correspondientes a cada variable. Los ejes se han rotado un ángulo de 20º. Visualmente se observa que las dos primeras variables saturan alto en el primer factor y las dos últimas en el segundo. La rotación produce una matriz de saturaciones que apoya la anterior interpretación de factores y no cambia las estimaciones de las comunalidades. Tampoco cambia la varianza explicada por el modelo, aunque sí la varianza explicada por cada uno de los factores. La siguiente tabla resume la varianza explicada por cada factor antes y después de la rotación: Solución sin rotar Solución rotada Factor Varianza Proporción de varianza Varianza Proporción de varianza 1.676 F1 0.419 1.617 0.405 1.175 F2 0.294 1.233 0.308 Total: 0.713 0.713 Existen diferentes métodos para llevar a cabo la rotación ortogonal. Por ejemplo, el método varimax propuesto por Kaiser (1958) que utiliza la matriz de transformación T que maximice la varianza explicada por cada factor. Es decir:

1 V  p

q



j 1

 p     *ij4    i  1 

p



i 1

 *ij2

  

2

 p 

Los resultados ofrecidos mediante este procedimiento varían según el método de extracción de factores empleado. El método varimax se recomienda especialmente para el método de extracción MV que al imponer la condición de que ' -1 sea una matriz diagonal proporciona una solución factorial que hace difícil la interpretación de factores. La mayoría de paquetes estadísticos ofrecen la posibilidad de realizar una rotación varimax.


112

Hay otros métodos de rotación ortogonal. Por ejemplo, el método quartimax que minimiza el número de factores necesarios para explicar cada variable maximizando la suma de las saturaciones elevadas a la cuarta potencia. Este método genera una solución final en la que existe un factor general y pesos pequeños en las variables. El método equamax es una combinación de los anteriores. Se minimiza tanto el número de variables que saturan alto en un factor como el número de factores necesarios para explicar una variable. 5.2. Rotación oblicua

No siempre es adecuado asumir que los factores son independientes. Para no imponer la ortogonalidad, cada uno de los factores de la matriz  puede girarse un ángulo diferente. De este modo, cada factor da cuenta de la covariación de diferentes grupos de variables. Como resultado, los factores ya no formarán un ángulo de 90º y por tanto, no serán ortogonales sino oblicuos; es decir, correlacionarán entre sí. Este procedimiento, como ventaja frente al anterior, ofrece seguridad de que la ortogonalidad no viene impuesta por el método de rotación. Existen diferentes métodos para llevar a cabo la rotación oblicua. Por ejemplo, el método oblimax que maximiza las saturaciones altas y bajas y minimiza las de valor intermedio. O el método oblimin, que utiliza como criterio la expresión:



 

donde  y  son saturaciones a asignar.

Cuando  = 0 se obtiene la solución más oblicua (método quartimin, que minimiza la suma de los productos internos de las saturaciones). A medida que  aumenta, los factores son menos oblicuos. Por ejemplo, si  = 1, la solución es menos oblicua (método covarimin). Para una solución intermedia ( = 0.50) puede emplearse el método bicuartimin.

6. Estimación de las puntuaciones factoriales En el análisis factorial, el objetivo suele ser estimar los parámetros del modelo. Sin embargo, también pueden calcularse las puntuaciones de los sujetos en los factores obtenidos. Con los métodos de extracción por ejes principales, máxima verosimilitud y mínimos cuadrados generalizados las puntuaciones factoriales no se calculan directamente sino que se estiman. Hay diferentes procedimientos para estimar las puntuaciones factoriales a partir de la matriz factorial o de la matriz factorial rotada. Aquí se comentan dos de ellos.

AN LISIS FACTORIAL

113

6.1. Método de Bartlett

Dado que el modelo factorial proporciona estimaciones sobre las matrices , e implica que las i no necesitan ser iguales, Bartlett (1937) propuso el uso del método de mínimos cuadrados ponderados para estimar las puntuaciones en los factores comunes. La suma de cuadrados de los errores ponderada por el recíproco de sus -1

-1

- f )' X - f Bartlett sugiere que(2)se elijan varianzas es: ' de f que = (Xminimicen los estimadores la(anterior).expresión. Es decir:

fˆ

(ˆ' ˆ

1

ˆ ) 1 ˆ ' ˆ  1 X

Las puntuaciones resultantes son típicas de media 0 y matriz de covarianzas I. Con este procedimiento se minimiza la suma de cuadrados de los factores únicos sobre el rango de las variables pero no se asegura la independencia entre los factores estimados.(3) 6.2. Método de regresión

Si puede asumirse que X y f tienen una distribución normal conjunta  , entonces, la regresión de con media 0 y matriz de covarianzas  '  



'

I

f sobre X es la distribución condicionada f | X que es normal multivariante con:

E(f | X) = ' ( ' + )-1 X Cov(f | X) = I – ' ( ' + )-1 Las estimaciones de dichos coeficientes producen puntuaciones factoriales análogas a las del análisis de regresión múltiple (véase capítulo 3). Por tanto, las puntuaciones factoriales vienen dadas por: fˆ

  ' S 1 X

o fˆ   ' R 1 z si se trabaja a partir de la matriz R

(2)

En el método MV, las saturaciones han de satisfacer la condición = ' -1 . Por tant ˆ 1X. Con el método de extracción CP, los i son iguales. Por tanto: fˆ  ˆ ' ˆ  ˆ 1X. fˆ  1 ˆ '

(3)

El método de Anderson-Rubin es una modificación del de Bartlett, que asegura la independencia de los factores estimados.


114

Dichas puntuaciones tienen de media 0 y varianza igual al cuadrado de la correlación múltiple entre las puntuaciones factoriales estimadas y los valores factoriales verdaderos. Con este método es posible que las puntuaciones factoriales estén correlacionadas. En el siguiente apartado se muestra un ejemplo donde se ilustra tanto la rotación como el cálculo de las puntuaciones factoriales.

7. Ejemplo El departamento de selección de una empresa mide cuatro variables de inteligencia: razonamiento abstracto (X1), razonamiento espacial (X2), razonamiento verbal (X3) y razonamiento numérico (X4) y tres de personalidad: neuroticismo (X5), ansiedad (X6) y extroversión (X7) en una muestra de 200 aspirantes a un puesto de gestión comercial. La matriz de correlaciones entre las siete variables medidas es:

X1  1.00000  0.47459 X2  0.47459 1.00000 X3  0.76270  0.53360  R  X 4  0.59866  0.43970 X5  0.18803 0.20078 X6  0.30870  0.20925 X7  0.30985  0.23193

0.76270  0.53360 1.00000 0.62619  0.14080 0.23609 0.23273

0.59866  0.43970 0.62619 1.00000  0.20309 0.26055 0.21590

 0.18803 0.30870 0.20078  0.20925  0.14080 0.23609  0.20309 0.26055 1.00000  0.30970  0.30970 1.00000  0.26950 0.34727

0.30985  0.23193 0.23273  0.21590  0.26950  0.34727 1.00000

A continuación se presentan los resultados del análisis factorial en el que se extraen 2 factores (uno que resume las variables de inteligencia y otro las de personalidad) mediante el método de componentes principales y el de ejes principales. a). AF con método de componentes principales:

Nº de orden 1 2 3 4 5 6 7

Autovalor 3.148 1.218 0.743 0.662 0.579 0.425 0.225

Matriz de saturaciones:

% varianza 44.967 17.404 10.618 9.462 8.267 6.073 3.209

% acumulado 44.967 62.371 72.989 82.452 90.718 96.791 100.00

AN LISIS FACTORIAL

 0.844 - 0.692  0.833    0.770 - 0.402  0.512   0.497

115

0.224 0.092 - 0.179 0.172 0.353 0.022 0.238 - 0.092 0.618 0.640 - 0.551 0.207

0.068 0.315 0.034 0.150 0.100 0.559

0.179 0.594 0.100 0.236  0.173  0.028

- 0.520

 0.461

0.140

0.494

 0.308  0.313  0.067 0.049    0.222 0.349  0.513  0.032 . 0.085  0.014   0.001 0.024  0.077

0.028

 

De la matriz puede deducirse que cada una de las comunalidades es 1. Por ejemplo, la primera es:  0.844   0.224     0.092  h12  0.844 0.224 0.092 0.068 0.179  0.308  0.313  0.068  1.000  0.179      0.308   0.313 Y que cada una de las unicidades es 0 pues se explica toda la varianza. b). AF con método de ejes principales. Con el método EP se lleva a cabo el análisis factorial a partir de la matriz reducida:

 0.62833  0.47459 0.76270 0.59866  0.18803 0.30870 0.30985  0.47459 0.32327  0.53360  0.43970 0.20078  0.20925  0.23193    0.76270  0.53360 0.65209 0.62619  0.14080 0.23609 0.23273   R*   0.59866  0.43970 0.62619 0.44685  0.20309 0.26055 0.21590  0.18803 0.20078  0.14080  0.20309 0.14562  0.30970  0.26950    0.30870  0.20925 0.23609 0.26055  0.30970 0.21045  0.34727   0.19260 0 . 30985 0 . 23193 0 . 23273 0 . 21590 0 . 26950 0 . 34727     Que incluye en la diagonal principal (y en negrita) las estimaciones iniciales de las comunalidades. Sus autovalores son: '  3.148 1.218 0.743 0.662 0.579 0.425 0.225 .


116

Gráfico de sedimentación 3.5 3.0 2.5

r lo a 2.0 v to 1.5 u A

1.0 .5 0.0

1

2

3

4

5

6

7

Número de factor

Según la regla de Kaiser y como refleja el gráfico de sedimentación, el análisis ha extraído dos factores pues hay dos autovalores mayores que uno. Los autovectores correspondientes a los dos primeros factores y la matriz de saturaciones son las siguientes:

0.174   0.508  0.370  0.057     0.507 0.367   ; A   0.433 0.145  0.523   0.191    0.253  0.537   0.245  0.499 

 0.829 0.123  0.594  0.039    0.866 0.316     0.702 0.098  0.316 0.393    0.428  0.444  0.405  0.377

 h12  0 .70 ; h 22  0 .36 ; h32  0 .85 y las  2 2 2 2  h 4  0 .50 ; h5  0 .25 ; h 6  0 .38 y h 7  0 .31   2 . 73 varianzas  1   2  0 . 62 Donde

El modelo de dos factores explica el 45.85% de la varianza total. Los resultados de la prueba de Bartlett ofrecen un estadístico X2 = 442.64 que se distribuye según 2 con 1/2 (p2 – p) = (72 – 7) / 2 = 21 grados de libertad. Consultando la tabla 3 del anexo se observa que con  = 0.05 el punto crítico es 11.59. Puesto que 442.64 > 11.59 se rechaza H0. El índice KMO es 0.81. Ambas pruebas indican que es apropiado utilizar el análisis factorial. A continuación se realiza una rotación ortogonal varimax en la que los factores se rotan un ángulo de 63º. Tras multiplicar la matriz por la matriz

AN LISIS FACTORIAL

117

de transformación se llega a la matriz factorial rotada:

0.268   0.794  h12  0 . 70   0.547  0.236   2    h 2  0 . 36  0.915  2 0.114  . Donde  h 3  0 . 85    R   0.669 0.233   h 42  0 . 50  h 2  0 . 25   0.102  0.494   5   0.591   h 622  0 . 38  0.179  0.189 0.521   h 7  0 . 31

  2 .29 y  1

 2  1 .06

Las comunalidades no cambian y la varianza explicada tampoco aunque sí la varianza de los factores. En este ejemplo, parece que las cuatro primeras variables se agrupan en el primer factor y las tres últimas en el segundo. La matriz reproducida y la residual son las siguientes:  0.702  - 0.497   0.756 R r   0.594  - 0.213   0.300   0.289

  0.023 0.006  R e  0.005  0.025  0.009  0.021

0.355 - 0.527 0.849 - 0.421 0.638 0.502 0.172 - 0.149 - 0.183 - 0.237 - 0.226

- 0.007 - 0.019 0.029 0.028 - 0.006

0.231 0.232

- 0.012 0.008 0.006 0.001

0.254

0.257 - 0.310 0.247 - 0.276

- 0.020 0.003 - 0.031

          0.381  0.341 0.307 

0.000 0.007

0.006

           

A continuación se ilustra el cálculo de las puntuaciones factoriales para el primer sujeto, 0.23 cuyo 1.05 1.36vector 0.27 0.de 18. puntuaciones z' 0.50 1.35 Estimación mediante el método de Bartlett: fˆ

 0.418  ( ˆ ' ˆ 1 ˆ ) 1 ˆ ' ˆ 1 z     0.494 

típicas

es:


118

Estimación mediante el método de regresión: fˆ

  0.355  (4)   'R 1 z     0 .223 

Los resultados del análisis factorial con el método de máxima verosimilitud se muestran en el siguiente apartado.

8. El análisis factorial y el lenguaje MATRIX del SPSS Al igual que en el ACP, cuando se dispone de los datos srcinales sobre las variables observadas, se introducen en el editor de datos del SPSS y se utiliza el procedimiento Análisis Factorial para extraer los factores. Cuando no se dispone de los datos srcinales y sólo conoce el nº de variables y sujetos y la matriz R (o la matriz S), el AF se puede llevar a cabo mediante el lenguaje MATRIX del SPSS. La sintaxis correspondiente a los datos del ejemplo de un factor con método de extracción EP es la siguiente: Matrix data var X1 X2 X3 /FORMAT lower diag/cont CORR /n=200. BEGIN DATA. 1.00 .83 1.00 .78 .67 1.00 END DATA. FACTOR /MATRIX=in(COR=*) /MISSING LISTWISE /ANALYSIS X1 X2 X3 /PRINT INITIAL EXTRACTION CORRELATION SIG DET KMO /PLOT EIGEN /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION PAF /METHOD=CORRELATION .

Los resultados obtenidos al ejecutar la sintaxis son los siguientes:

(4)

Los resultados son similares. Por simplicidad, no se incluyen los cálculos. El lector puede realizarlos mediante el lenguaje MATRIX.

AN LISIS FACTORIAL

119 Matriz de correlaciones

Correlación

Sig. (Unilateral)

a

X1

X1 1.000

X2 .830

X2

.830

1.000

.670

X3

.780

.670

1.000

.000

.000

X1 X2

.000

X3

.000

X3 .780

.000 .000

a. Determinante = .121

KMO y prueba de Bartlett Medida de adecuación muestral de Kaiser-Meyer-Olkin. Prueba de esfericidad de Bartlett

Chi-cuadrado aproximado

.704

415.895

gl Sig.

3 .000

En primer lugar aparece la matriz de correlaciones y en segundo el resultado la prueba de esfericidad Bartlett del valor dely índice KMO Como se de observa, el estadístico de de Bartlett es ysignificativo el valor del. índice KMO se encuentra dentro de los límites establecidos, por lo que el uso del análisis factorial es adecuado o tiene sentido. La siguiente tabla muestra las estimaciones iniciales de las comunalidades que se incluyen en la diagonal principal de la matriz R* y las comunalidades obtenidas tras la extracción. Comunalidades

X1

Inicial .780

Extracción .963

X2

.690

.714

X3

.610

.630

Método de extracción: Factorización de Ejes principales.

A continuación se muestran los autovalores iniciales y los reproducidos por la matriz de saturaciones tras la extracción con el método de ejes principales y el gráfico de sedimentación. En este caso, se observa que el modelo de un factor explica el 76.94% de la varianza total.


120

Varianza total explicada Sumas de las saturaciones al cuadrado de la extracción

Autovalores iniciales Total 2.522


2

.334

11.137

95.201

3

.144

4.799

100.000

Factor 1

% acumulado 84.064

Total 2.308


% acumulado 76.937

Método de extracción: Factorización de Ejes principales. Gráfico de sedimentación 3.0 2.5 r 2.0 lo a v 1.5 to u A 1.0

.5 0.0 1

2

3

Número de factor

Por último, se muestra la matriz factorial ( ) que incluye las saturaciones de las variables en el único factor extraído. Puesto que solamente se ha extraído un factor, no es posible llevar a cabo la rotación. Matriz factorial a Factor X1

1 .982

X2

.845

X3

.794

Método de extracción: Factorización del eje principal. a. 1 factores extraídos. Requeridas 13 iteraciones.

La sintaxis para llevar a cabo el AF con los datos del ejemplo de dos factores con método de extracción por máxima verosimilitud y rotación varimax es la siguiente:

AN LISIS FACTORIAL

121

Matrix data var X1 X2 X3 X4 X5 X6 X7 /FORMAT lower diag/cont CORR /n=200. BEGIN DATA. 1.00000 -.47459 1.00000 .76270 -.53360 1.00000 .59866 -.43970 .62619 1.00000 -.18803 .20078 -.14080 -.20309 1.00000 .30870 -.20925 .23609 .26055 -.30970 1.00000 .30985 -.23193 END DATA.

.23273

.21590 -.26950

.34727 1.00000

FACTOR /MATRIX=in(COR=*) /MISSING LISTWISE /ANALYSIS X1 X2 X3 X4 X5 X6 X7 /PRINT INITIAL EXTRACTION CORRELATION SIG DET KMO REPR ROTATION /PLOT EIGEN ROTATION /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION ML /ROTATION VARIMAX /METHOD=CORRELATION .

Los resultados obtenidos son los siguientes: as Matriz de correlacione

Correlación

X1

X1 1.000

X2 -.475

X3 .763

X4 .599

X5 -.188

X6 .309

X7 .310

X2

-.475

X3

.763

1.000

-.534

-.534

1.000

-.440

.201

-.209

-.232

.626

-.141

.236

X4

.599

-.440

.233

.626

1.000

-.203

.261

X5

-.188

.216

.201

-.141

-.203

1.000

-.310

-.270

X6 X7

.309

-.209

.236

.261

-.310

1.000

.347

.310

-.232

.233

.216

-.270

.347

1.000

.000

.000

.000

.004

.000

.000

.000

.000

.002

.001

.000

.000

.023

.000

.000

.002

.000

.001

.000

.000

Sig. (Unilateral X1 X2

.000

X3

.000

.000

X4

.000

.000

.000

X5

.004

.002

.023

.002

X6

.000

.001

.000

.000

.000

X7

.000

.000

.000

.001

.000

.000 .000

a. Determinante = .104

Como en el ejemplo anterior, en primer lugar aparece la matriz de correlaciones con sus pruebas de significación y a continuación el resultado de la prueba de esfericidad de Bartlett y el valor del índice KMO. Como se


122

observa, el estadístico de Bartlett es significativo y el valor del índice KMO está dentro de los límites establecidos. Por tanto, el uso del modelo factorial es adecuado. KMO y prueba de Bartlett Medida de adecuación muestral de Kaiser-Meyer-Olkin.

.805

Prueba de esfericidad

Chi-cuadrado

de Bartlett

aproximado gl Sig.

442.638 21 .000

A continuación se muestran las estimaciones iniciales y finales de las comunalidades y los autovalores iniciales y los reproducidos por la matriz de saturaciones tras la extracción. En este caso, al igual que con los restantes métodos de estimación vistos en el apartado 7, el modelo explica el 47.87% de la varianza total. También se muestra el gráfico de sedimentación. Comunalidades

X1

Inicial .628

Extracción .709

X2

.323

.352

X3 X4

.652

.853

.447

.492

X5

.146

.254

X6

.210

.379

X7

.193

.311

Método de extracción: Máxima verosimilitud.

Varianza total explicada

Autovalores iniciales

Sumas de las saturaciones al Suma de las saturaciones al cuadrado de la extracción cuadrado de la rotación

Fac % de la % % de la % % de la % tor Total varianza acumulado Total varianza acumulado Total varianza acumulado 1 3.148 44.967 44.967 2.648 37.831 37.831 2.295 32.789 32.789 2 1.218 17.404 62.371 .702 10.035 47.866 1.055 15.077 47.866 3 4

.743 .662

10.618 9.462

72.989 82.452

5

.579

8.267

90.718

6

.425

6.073

96.791

7

.225

3.209

100.000

Método de extracción: Máxima verosimilitud.

AN LISIS FACTORIAL

123 Gráfico de sedimentación

3.5 3.0 r lo a v o t u A

2.5 2.0 1.5 1.0 .5 0.0 1

2

3

4

5

6

7

Número de factor

A continuación se muestra la matriz factorial ( ) que incluye las saturaciones de las variables en los dos factores extraídos y fueron obtenidas en 6 iteraciones. Matriz factorial

a

Factor X1

1 .841

2 .041

X2

-.589

-.070

X3

.913

-.142

X4

.700

.049

X5

-.225

-.451

X6

.337

.515

X7

.326

.452

Método de extracción: Máxima verosimilitud. a. 2 factores extraídos. Requeridas 6 iteraciones.

La solución factorial por máxima verosimilitud ofrece un resultado difícil de interpretar por lo que se necesita rotar los factores. Se llevó a cabo una rotación varimax con un ángulo de 74º a partir de la siguiente matriz de transformación: Matriz de transformación de los factores Factor 1

1 .963

2 .271

2

-.271

.963

Método de extracción: Máxima verosimilitud. Método de rotación: Normalización Varimax con Kaiser.


124

Tras multiplicar la matriz factorial por la matriz de transformación se llega a la siguiente matriz rotada en tres iteraciones: Matriz de factores rotados a Factor X1

1 .798

2 .267

X2

-.548

-.227

X3 X4

.917

.111

.660

.237

X5

-.095

-.496

X6

.185

.587

X7

.192

.523

Método de extracción: Máxima verosimilitud. Método de rotación: Normalización Varimax con Kaiser. a. La rotación ha convergido en 3 iteraciones.

Como se observa, la rotación ha facilitado la interpretación pues las cuatro primeras variables saturan en el primer factor (de inteligencia) y las tres últimas en el segundo factor (de personalidad). Esta configuración puede verse más claramente en el gráfico de saturaciones en el espacio factorial rotado que ofrece el SPSS: Gráfico de saturaciones en espacio factorial rotado 1.0

x6 x7 .5

2 r to c a F

0.0

x4 x1 x2 x5

-.5

-1.0 -1.0

x3

-.5

0.0

.5

1.0

Factor 1

El método de máxima verosimilitud ofrece además el resultado de la prueba de bondad de ajuste chi-cuadrado para valorar el ajuste del modelo:

AN LISIS FACTORIAL

125 Prueba de la bondad de ajuste

Chi-cuadrado 3.683

gl 8

Sig. .885

Como se observa, el estadístico X2 toma el valor 3.683 y se distribuye aproximadamente según 2 con 1/2 [(p – q)2 – (p + q)] = 8 grados de libertad. El valor del estadístico no resulta significativo (véase tabla 3 del anexo) por lo que el modelo de dos factores ofrece un buen ajuste estadístico. Por último se muestran la matriz de correlaciones reproducida ( Rr) y la matriz residual (Re): Correlaciones reproducidas

Correlación reproducida X1

X1 .7088b

X2 X3

Residuala

X2 -.4984

X3 .7617

X4 .5906

X5 -.2078

X6 .3044

X7 .2929

-.4984

.3522b

-.5280

.7617

-.5280

.8530b

-.4159

.1642

-.2345

-.2239

.6319

-.1417

.2346

X4

.5906

-.4159

.2341

.6319

.4923b

-.1798

.2612

X5

-.2078

.2507

.1642

-.1417

-.1798

.2545b -.3086

-.2774

X6 X7

.3044

-.2345

.2346

.2612

-.3086

.3793b

.3429

.2929

-.2239

.2341

.2507

-.2774

.3429

.3106b

.0238

.0010

.0081

.0197

.0043

.0169

-.0056

-.0238 -.0057

.0366 .0009

.0253 .0014

-.0080 -.0013

-.023

-.0006

-.0348

-.0011

.0079

X1 X2 X3

.0238 .0010

-.0056

X4

.0081

-.0238

-.0057

X5

.0197

.0366

.0009

-.0233

X6

.0043

.0253

.0014

-.0006

-.001

X7

.0169

-.0080

-.0013

-.0348

.0079

.0044 .0044

Método de extracción: Máxima verosimilitud. a. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 0 (.0%) residuos no redundantes con valores absolutos > 0,05. b. Comunalidades reproducidas

La matriz residual es otro indicador de bondad de ajuste. Como puede observarse, no hay ningún residuo entre los elementos que se encuentran fuera de la diagonal principal que tome valores absolutos mayores que 0.05, por lo que puede concluirse que el modelo obtiene un buen ajuste.


126

9. Ejercicios 1.

A partir de las puntuaciones de 10 sujetos en tres pruebas: escala de extroversión (X1), escala de apertura X( 2) y escala de persuasión X( 3) se ha obtenido la siguiente matriz de covarianzas:

S

X 1  4  2 10   X  2 2  7 2 X 3  10  7 36 

Realice un análisis factorial (método componentes principales) a partir únicamente de las variables X1 y X3. Comente la importancia de cada factor encontrado y su posible interpretación. 2.

La matriz de correlaciones de 200 sujetos en 5 variables es la siguiente:

R

X1 X2  X3 X4 X5

1 .0000      

0 .7627 1 .0000

0 . 5987 0 .6262 1 .0000

0 .3087 0 .2361 0 .2606 1 . 0000

0 .3099  0 .2327  0 .2159   0 .3473  1 . 0000 

Realice un análisis factorial con método de extracción máxima verosimilitud y rotación varimax mediante el lenguaje MATRIX del SPSS. Interprete los resultados obtenidos y la prueba de bondad de ajuste del modelo estimado.

Referencias bibliográficas Amón, J. (1991). Introducción al análisis multivariante (cálculo matricial). Barcelona. Promociones y publicaciones universitarias, S.A. Andersen, E. B. (1980). Discrete statistical models with social science applications. Amsterdam. North Holland. Anderson, T. W. (1984). An introduction to multivariate statistical analysis. New York. Chichester: Wiley. Arnold, S. F. (1981). The theory of Linear Models and Multivariate Analysis. New York. John Wiley. Bartlett, M. S. (1937). The statistical conception of mental factors. British Journal of Psychology, 28, 97-104. Basilevsky, A. (1983). Applied matrix algebra in the statistical sciences. New York, Oxford. North Holland. Basilevsky, A. (1994). Statistical factor analysis and related methods: theory and applications. New York. John Wiley and sons. Berry, W. D. & Feldman, S. (1985). Multiple regression in practice. Beverly Hills. Quantitative applications in the social sciences (a Sage university paper). Bishop, Y. M. M., Fienberg, S. E. & Holland, P. W. (1975). Discrete multivariate analysis. Cambridge, Mass. MIT Press. Box, G. E. P., & Draper, N. R. (1987). Empirical model building and

response surfaces . New York: Wiley. sur les probabilites des erreurs de Bravais, A. (1846). Analyse mathematique situation d’un point. Memoria presentada en L’Academie Royale des Sciences de L’Institut de France, Sci. Math. Phys., 9, 255-332. Browne, M.W. & Cudeck, R. (1992). Alternative ways of assessing model fit. Sociological Methods and Research , 27, 269-300. Carroll, J. D. (1997). Mathematical Tools for Applied Multivariate Analysis. San Diego. Academic Press. Cook, D. R. (1999). Applied regression including computing and graphics. New York. Wiley. Dillon, W. R & Goldstein, M. (1984). Multivariate analysis. Methods and applications. New York. Wiley. Draper, N. R. & Smith, H. (1981). Applied regression analysis. New York. John Wiley & Sons. Dunteman, G. H. (1989). Principal components analysis. Newbury Park. Sage, Quantitative applications in the social sciences. Etxebarría, J. (2000). Regresión múltiple. Madrid y Salamanca. La Muralla y Hespérides. Ferrando, P. J. (1993). Introducción al análisis factorial. Barcelona. PPU. Serie Universitas.

128


Flury, B. (1988). Common principal components and related multivariate models. New York. John Wiley and sons. Frisch, R. (1929). Correlation and scatter in statistical variables. Nordisk Statistisk Tidsskrift, 8, 36-103. García, E., Gil, J. & Rodríguez, G. (2000). Análisis factorial. Madrid y Salamanca. La Muralla y Hespérides. Gifi, A. (1996). Nonlinear multivariate analysis. Chichester. John Wiley & Sons. Girschick, M. Association A. (1936). , Principal components. Journal of the American Statistical 31, 519-528. Hair, J. F., Anderson, R. E., Tatham, R. L & Black, W. C. (1998). Multivariate data analysis. New Jersey. Prentice Hall. Traducido al castellano en “Análisis multivariante”. Editorial Prentice Hall, 1999 (5ª edición). Harman, H. H. (1980). Análisis factorial moderno. Madrid. Saltés. Herstein, I. N. & Winter, D. J. (1989). Álgebra lineal y teoría de matrices. México. Iberoamericana. Hotelling, H. (1933). Analysis of complex of statistical variables into principal components. Journal of Educational Psychology , 24, 417-441, 498-520. Jackson, J. E. (1991). A user's guide to principal components. New York. Wiley. Johnson, N. L. & Kotz, S. (1969). Discrete distributions. Boston. Houghton Mifflin. Johnson, N.L. & Kotz, S. (1972). Distributions in statistics: continous multivariate distributions. Boston. Houghton Mifflin. Johnson, R. A. & Wichern, D.W. (2002). Applied multivariate statistical analysis. New Jersey. Prentice Hall. 5ª edición. Kaiser, H. F. (1958). The varimax criterion for analytic rotation in factor analisys. Psychometrika, 23, 187-200. Kaiser, H. F. (1974). An index of factorial simplicity. Psychometrika, 39, 3136. Kendall, M. G. (1980). Multivariate analysis. London. Charles Griffin & Co. Krzanowski, W. J. (2000). Principles of Multivariate Analysis: A User's Perspective. Oxford. Oxford Univesity Press. Lawley, D. N. & Maxwell. A. E. (1971). Factor analysis as a statistical method. London. Butterworths. Lewis-Beck, M. S. (1994). Factor analysis and related techniques. London. Sage, International handbooks of quantitative applications in the social sciences, 5. Mardia, K. V., Kent, J. T. & Bibby, J. M. (1997). Multivariate analysis. London. Academic Press. Martín Pliego, F. J. & Ruiz-Maya, L. (1997).Estadística. Volumen I: Probabilidad. Madrid. Editorial AC.

REFERENCIAS

129

Maxwell, A. E. (1977). Multivariate analysis in behavioral research. London. Chapman & Hall. McDonald, R. P. (1962). A general approach to nonlinear factor analysis. Psychometrika, 27, 397-415. McDonald, R. P. (1967). Numerical methods for polynomial models in nonlinear factor analysis. Psychometrika, 32, 77-112. Montgomery, D. & Peck, E. A. (1992).Introduction to linear regression analysis. New York. Wiley. Muirhead, Wiley. R. J. (1982).Aspects of multivariate statistical theory. New York. Mulaik, S. A. (1972). The foundations of factor analysis. New York. McGraw-Hill Series in Psychology. Myers, R. H. & Montgomery, D. C. (1995). Response surface methodology: Process and product optimization using designed experiments. New York: Wiley. Namboodiri, K. (1984). Matrix algebra. An introduction. Beverly Hills. Sage. Neil, T. H. (2002). Applied Multivariate Analysis. New York. Springer texts in statistics. Neter, J, Kunter, M.H., Nachtsheim, C.J. & Waserman, W. (1996). Applied linear statistical models. Times Mirror Higher Education Grop, Inc. Pardo, A. (2002). Análisis de datos categóricos. Madrid: UNED Ediciones. Pardo, A. & Ruiz, M. A. (2002). SPSS 11. Guía para el análisis de datos. Madrid. McGraw Hill. Pearson, K. (1901). On lines and planes of closest fit to a system of points in space. Philosophical Magazine, 2, 557-572. Pedhazur, E. J. (1982). Multiple regression in behavioral research: explanation and prediction. New York. Holt, Rinehart and Winston. Rao, C. R. & Toutenburg, H. (1995). Linear models. Least squares and alternatives. New York. Springer-Verlag. Rencher, A. C. (1995). Methods of multivariate analysis. New York. Wiley series in probability and mathematical statistics. Revuelta, J. & Ponsoda, V. (2000). Fundamentos de estadística. Madrid. UNED Ediciones. Reyment, R. A., Balckith, R. W. & Campbell, N. A. (1984). Multivariate morphometrics. London. Academic Press. Ruiz, M. A. (2000). Introducción a modelos de ecuaciones estructurales. Madrid. UNED Ediciones. Searle, S. R. (1982). Matrix algebra useful for statistics. New York. Wiley. Steiger, J.H. (1990). Structural model evaluation and identification: An interval estimation approach. Multivariate Behavioral Research, 25, 173-189. Steiger, J.H. & Lind, J. (1980). Statistically based tests for the number of common factors. Annual meeting of the Psychometric Society, Iowa.

130


Takeuchi, K., Yanai, H. & Mukherjee, B. N. (1982). The foundations of multivariate analysis: a unified approach by means of projection onto linear subspaces. New York. Wiley. Tatsuoka, M. M. & Lohnes, P. R. (1988). Multivariate analysis: Techniques for educational and psychological research (2ª ed.). New York. Macmillan Publishing Co, Inc. Thurstone, L. L. (1935). The vectors of the mind . Chicago. University of Chicago Press. Tucker, L.R. &factor Lewis, C. (1973). A reliability coefficient for maximum likelihood analysis. Psychometrika , 35, 417-437. Weisberg, S. (1985). Applied linear regression. New York. Wiley Series in Probability and Statistics. Winter, D. J. (1992). Matrix algebra. New York. MacMillan. Ximénez, M. C. & San Martín, R. (2000). Application of response surface methodology to the study of person-organization fit. Psicothema, 12, 151-158. Yalcin, I. & Amemiya, Y. (2001). Nonlinear factor analysis as a statistical method. Statistical Science, 16, 275-294. Zhu, H. T. & Lee, S. Y. (1999). Statistical analysis of nonlinear factor analysis models. The British Journal of Mathematical and Statistical Psychology, 52, 225-242.

ANEXOS Tabla 1. Distribución de probabilidad normal tipificada N(0, 1) Tabla 2. Distribución de probabilidad t de Student Tabla 3. Distribución de probabilidad de 2 de Pearson Tabla 4. Distribución de probabilidad F de Snedecor

ANEXOS

133

Tabla 1. Distribución de probabilidad normal tipificada N(0, 1) N(0, 1)

Fórmula: F ( z ) 

1 2



z



e x

2

/2

dx

zi

z 0.00 0.0 0.5000

0.01 0.02 0.03 0.04 0.5040 0.5080 0.5120 0.5160

0.05 0.06 0.07 0.08 0.09 0.5199 0.5239 0.5279 0.5319 0.5359

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8

0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641

0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649

0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656

0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664

0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671

0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678

0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686

0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693

0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699

0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706

1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9

0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9987 0.9990 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 1.0000

0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9987 0.9991 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 1.0000

0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9987 0.9991 0.9994 0.9995 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988 0.9991 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989 0.9992 0.9995 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9990 0.9993 0.9995 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 0.9999 1.0000

Ejemplos: P(z  1.33) = 0.9082; P(z  -2.08) = 1 – 0.9812 = 0.0188;

P(z  1.33) = 1 – 0.9082 = 0.0918; P(z  -2.08) = 0.9812

FUNDAMENTOS DE LAS T NICAS MULTIVARIANTES

134

Tabla 2. Distribución de probabilidad t de Student

t gl

 n 1  F ( x)   2  n n   2 

Fórmula: ti gl

0.50

0.60

0.70

0.75

0.80

0.90

0.95

21 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000

0.325 0.289 0.277 0.271 0.267 0.265 0.263 0.262 0.261 0.260 0.260 0.259 0.259 0.258 0.258 0.258 0.257 0.257

0.727 0.617 0.584 0.569 0.559 0.553 0.549 0.546 0.543 0.542 0.540 0.539 0.538 0.537 0.536 0.535 0.534 0.534

1.000 0.816 0.765 0.741 0.727 0.718 0.711 0.706 0.703 0.700 0.697 0.695 0.694 0.692 0.691 0.690 0.689 0.688

1.376 1.061 0.978 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.876 0.873 0.870 0.868 0.866 0.865 0.863 0.862

3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330

19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 200 500 

0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000

0.257 0.257 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.255 0.255 0.254 0.254 0.254 0.254 0.254 0.254 0.253 0.253

0.533 0.532 0.532 0.532 0.531 0.531 0.531 0.531 0.530 0.530 0.530 0.529 0.528 0.527 0.527 0.526 0.526 0.526 0.525 0.525 0.524

0.688 0.687 0.686 0.686 0.685 0.685 0.684 0.684 0.684 0.683 0.683 0.683 0.681 0.679 0.679 0.678 0.678 0.677 0.677 0.676 0.675 0.674

0.861 0.860 0.859 0.858 0.858 0.857 0.856 0.856 0.855 0.855 0.854 0.854 0.851 0.849 0.848 0.847 0.846 0.846 0.845 0.843 0.842 0.842

1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.303 1.299 1.296 1.294 1.292 1.291 1.290 1.286 1.283 1.282

Ejemplos: P(1.325) t20  = 0.90; P( P(t20  -1.325) = P(t20  1.325) = 0.10;

 y2   1  n  x

0.975



n 1 2

dy

0.99

0.995

6.314 2.920 12.706 4.303 2.353 3.182 2.132 2.776 2.015 2.571 1.943 2.447 1.895 2.365 1.860 2.306 1.833 2.262 1.812 2.228 1.796 2.201 1.782 2.179 1.771 2.160 1.761 2.145 1.753 2.131 1.746 2.120 1.740 2.110 1.734 2.101

31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552

63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878

1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.684 1.676 1.671 1.667 1.664 1.662 1.660 1.653 1.648 1.645

2.539 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.423 2.403 2.390 2.381 2.374 2.368 2.364 2.345 2.334 2.326

2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.704 2.678 2.660 2.648 2.639 2.632 2.626 2.601 2.586 2.576

2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.021 2.009 2.000 1.994 1.990 1.987 1.984 1.972 1.965 1.960

t20  1.325) = 1 – 0.90 = 0.10; P(t20  -1.325) = P(t20  1.325) = 0.90

ANEXOS

135 Tabla 3. Distribución de probabilidad de 2 de Pearson

p

 2 gl Fórmula:

0 2

F(x) 

+

1 n 2n/ 2    2



x



y(n2 )1 ey/ 2dy

p g.l. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

0.005 0.00 0.01 0.07 0.21 0.41 0.68 0.99 1.34 1.73 2.16 2.60 3.07 3.57 4.07 4.60 5.14 5.70 6.26 6.84 7.43 8.03 8.64 9.26 9.89 10.52 11.16 11.81 12.46 13.12 13.79

0.01 0.00 0.02 0.11 0.30 0.55 0.87 1.24 1.65 2.09 2.56 3.05 3.57 4.11 4.66 5.23 5.81 6.41 7.01 7.63 8.26 8.90 9.54 10.20 10.86 11.52 12.20 12.88 13.56 14.26 14.95

0.025 0.00 0.05 0.22 0.48 0.83 1.24 1.69 2.18 2.70 3.25 3.82 4.40 5.01 5.63 6.26 6.91 7.56 8.23 8.91 9.59 10.28 10.98 11.69 12.40 13.12 13.84 14.57 15.31 16.05 16.79

0.05 0.00 0.10 0.35 0.71 1.15 1.64 2.17 2.73 3.33 3.94 4.57 5.23 5.89 6.57 7.26 7.96 8.67 9.39 10.12 10.85 11.59 12.34 13.09 13.85 14.61 15.38 16.15 16.93 17.71 18.49

Ejemplos: P(216 32) = 0.99;

0.10 0.02 0.21 0.58 1.06 1.61 2.20 2.83 3.49 4.17 4.87 5.58 6.30 7.04 7.79 8.55 9.31 10.09 10.86 11.65 12.44 13.24 14.04 14.85 15.66 16.47 17.29 18.11 18.94 19.77 20.60

0.90 2.71 4.61 6.25 7.78 9.24 10.64 12.02 13.36 14.68 15.99 17.28 18.55 19.81 21.06 22.31 23.54 24.77 25.99 27.20 28.41 29.62 30.81 32.01 33.20 34.38 35.56 36.74 37.92 39.09 40.26

0.95 3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31 19.68 21.03 22.36 23.68 25.00 26.30 27.59 28.87 30.14 31.41 32.67 33.92 35.17 36.42 37.65 38.89 40.11 41.34 42.56 43.77

0.975 5.02 7.38 9.35 11.14 12.83 14.45 16.01 17.53 19.02 20.48 21.92 23.34 24.74 26.12 27.49 28.85 30.19 31.53 32.85 34.17 35.48 36.78 38.08 39.36 40.65 41.92 43.19 44.46 45.72 46.98

0.98 5.41 7.82 9.84 11.67 13.39 15.03 16.62 18.17 19.68 21.16 22.62 24.05 25.47 26.87 28.26 29.63 31.00 32.35 33.69 35.02 36.34 37.66 38.97 40.27 41.57 42.86 44.14 45.42 46.69 47.96

0.99 6.63 9.21 11.34 13.28 15.09 16.81 18.48 20.09 21.67 23.21 24.72 26.22 27.69 29.14 30.58 32.00 33.41 34.81 36.19 37.57 38.93 40.29 41.64 42.98 44.31 45.64 46.96 48.28 49.59 50.89

P( 216  32) = 1 - 0.99 = 0.01

Para gl > 30 los puntos de la distribución 2 pueden obtenerse mediante la expresión: 2 p  gl

1  ( z p  2 gl  1) 2 2

0.995 7.88 10.60 12.84 14.86 16.75 18.55 20.28 21.95 23.59 25.19 26.76 28.30 29.82 31.32 32.80 34.27 35.72 37.16 38.58 40.00 41.40 42.80 44.18 45.56 46.93 48.29 49.64 50.99 52.34 53.67

0.999 10.83 13.82 16.27 18.47 20.52 22.46 24.32 26.12 27.88 29.59 31.26 32.91 34.53 36.12 37.70 39.25 40.79 42.31 43.82 45.31 46.80 48.27 49.73 51.18 52.62 54.05 55.48 56.89 58.30 59.70

Esta monografía se ha elaborado como material de apoyo para los estudiantes del curso de doctorado Fundamentos de las técnicas multivariantes, del programa de doctorado interuniversitario de "Metodología de las Ciencias del Comportamiento", impartido conjuntamente por la UAM, la UCM y la UNED. La presente monografía está dirigida a aquellos, que teniendo una formación básica en estadística, desean profundizar en las técnicas que analizan simultáneamente un conjunto de variables. Se pretende que el lector adquiera la base para la comprensión y el manejo de las técnicas multivariantes. Con este fin, se revisan las nociones básicas sobre álgebra de matrices necesarias para su formulación. Asimismo, se expone el concepto de distribución multivariante, marginal y condicional con especial atención a la distribución normal multivariante. Por último, se presentan tres técnicas multivariantes, el análisis de regresión múltiple, el análisis de componentes principales y el análisis factorial. Para cada una de ellas se expone su formulación teórica, supuestos, métodos de estimación y de verificación del modelo, así como diversos ejemplos y ejercicios. Además se introduce la utilización del lenguaje MATRIX del programa SPSS para llevar a cabo operaciones matriciales y los análisis requeridos por las diferentes técnicas tratadas.

ISBN 84-362-5059-1

36195

9 78 843 6 2 50596

Abierta 36195AA01A01

Fundamentos de Las Técnicas Multivariantes

Recommend Documents