Analyse des données.
ANALYSE EN COM COMPOSANTES POSANTES PRINCIPALES (ACP)
1. INTRODUCTION. L’analyse en composantes principales (Hotelling, 1933) est une méthode descriptive qui a pour but l’analyse des tableaux de données qui ne présentent pas de structure particulière, c’est à dire, des observations ne comportant à priori aucune distinction, ni entre variables, ni entre individus. l’objectif de l’ACP est de résumer l’information contenue dans un tableau, constitué souvent d’un nombre élevé de lignes et de colonnes, en quelques représentations graphiques à deux dimensi dimensions, ons, plus un certain cert ain nombre de caractéristiques caract éristiques numériques numériques destinées de stinées à facili faciliter ter.. L’ACP est utilisée Dans le cas plusieurs individus (n individus) mesurés par rapport à un grand nombre de variables métriques X1, X 2,....,X p . Ces variables sont la plupart du temps corrélées entre elles et détiennent des parts à peu près égales d’explication des variations observées dans les données.
De point de vue géométrique, le nuage de points représentant les données s’inscrit dans un espace à p dimensions puisque chaque
Analyse des données.
point point représente un indivi individu du mesuré par rapport r apport à X1, X 2,....,X p , ce qui est pratiquement impossible à représenter. En plus la dispersion du nuage de points sur les différentes dimensions est à peu près égale. égale. Pour résoudre le problème, problème, l’ACP l’ACP effectue effectue une simple rotation des axes pour obtenir de nouveaux axes appelés composantes qui sont non corrélées corrélées et sont à variance variance ordonnée. Pour illustrer le principe de l’ACP, considérons le cas d’un nuage de points hypothétiques pour 2 variables normales centrées réduites (moyennes nulles et variances unitaires) X1 et X 2 .
Figure 1 : Nuage de données hypothétiques dans un espace à 2 dimensions Chaque point représente un individu mesuré par rapport à X1 et X 2 , on voit bien une corrélation positive entre les 2 variables . La variance totale, V( X1 )+V( X 2 )= )=2 2, est est part partag agée ée à peu près également également entre X1 et X 2 .
Analyse des données.
L’analyse en composantes effectue une rotation rigide des axes pour obtenir obtenir deux nouveaux axes Y1 et Y2 appelés composantes. La figure figure 2 indique indique que c’est selon selon Y1 que la variation dans les données est maximale, tandis qu’elle est minimale selon Y 2. Les 2 composantes sont non corrélées, la dispersion sur Y1 est beaucoup plus forte fort e que celle celle sur Y2 les com composa posan ntes son sont don doncc à variance ordonnée.
Figure Figure 2 : Rotation Rotat ion orthogonal ort hogonalee des axes dans un espace à 2 dimensions De façon façon générale, l’anal l’analyse yse en composantes composant es principal principales es permet d’obtenir de nouvelles variables, appelées composantes, qui seront non corrélées et à variance ordonnée. Un petit nombre de ces composantes permettra souvent d’expliquer la plus grande partie de la variance variance observée. Ce petit nombre nombre de ces composantes sont appelées composantes principales.
Analyse des données.
2. CALCUL ET INTERPRETATION INTERPRETATION DES COMPOSANTES. On dispose de n individus caractérisés par p variables métriques. Les données se représentent sous la forme d’un tableau appelé matrice des données de dimensions n p. Les p variables sont le plus souvent de nature différente, c’est la raison pour laquelle les variables seront centrées et réduites pour homogénéiser les unités. On remplace les variables initiales par les variables centrées réduites correspondantes, l’analyse portera donc sur la matrice X des données centrées réduites. A partir des variables initiales, l’ACP consiste à calculer des nouvelles variables, appelées composantes et qui sont des combinaisons linéaires des variables initiales. Ces composantes sont non corrélées et de variance ordonnée, un nombre réduit de ces composantes résume les variables initiales en minimisant la perte d’inform d’information ation due à cette réduction.. r éduction.. On défini définitt la première première composante co mposante C1 comme une combinaison linéaire des variables centrées réduites X1, X 2,....,X p : C1 a11X1 a 21X 2 ...a p1X p Telle Telle que la variance de C1 soit maximale. La deuxième composante C2 est aussi une combinaison linéaire des mêmes variables : C2 a12X1 a 22X 2 ...a p2X p telle que C 2 est non corrélée avec C1 corrélation ( C1, C2 ) = 0, et C2 possède la variance variance maxim maximale ale parmi toutes to utes les combinai combinaisons sons linéaires inéaires qui ne sont pas corrélées avec C1 . Il en est ainsi pour les autres
Analyse des données.
composantes C3, C4,....,C p , chacune d'elles ayant variance maximale parmi toutes les combinaisons linéaires de X1, X 2,....,X p qui ne sont pas corrélées avec les composantes précédentes. On démontre que les variances correspondant aux composantes sont les valeurs propres positifs de la matrice de corrélation et les vecteurs propres correspondants fournissent les coefficients à être attribuées aux variables X1, X 2,....,X p pour constituer ces combinaisons linéaires appelées composantes. Les composantes sont toujours de moyennes nulles et de variances égales aux valeurs valeurs propres ordonnés : 1 2 ..... p 0 . la valeur propre exprimée en pourcentage
i
p
indique le
pourcentage de la variance variance total tot alee expliq expliquée uée par la composante Ci . Ces pourcentages cumulés
1
p
,
1
p
2
,
1
2
p
3
, etc. indiquent le
pourcentage de la variance variance totale tot ale expliquée expliquée par la première première composante, les deux premières composantes, les trois premières composantes, etc.
3. INTERPRETATION DES RESULTATS DE L’ACP. Le principe d’une ACP est donc de remplacer les variables initiales, généralement corrélées, par des variables non corrélées de variances progressivement décroissantes, les premières pouvant faire faire l’objet ’objet d’une interprét interprétation ation particulière particulière et les dernières pouvant être négligées. L’analyse en composantes principales passe par les étapes suivantes :
Analyse des données.
3.1. Repérage des observations aberrantes. Les individus pour lesquels des données sont manquantes, aussi les données aberrantes ou extrêmes influencent la moyenne et la variance et risquent de fausser l’analyse, d’où la nécessité de leur élimination.
3.2. Matrice de corrélation des variables initiales. L’analyse de la matrice de corrélation permet d’identifier des groupes de variables corrélées entre elles. Plus on identifie de corrélation, plus l’ACP donnera des axes factoriels représentatifs des observations et donc une forte représentation de l’in l’information formation par les axes.
3.3. Choix des composantes principales. Une règle empirique, celle-ci due à Cattell (1966) et appelée test du tal t alus us (scree test) se fonde sur le graphique graphique des valeurs propres de R en fonction de leur rang; habituellement, la décroissance est rapide au début et lente par la suite. On retiendra les composantes dont les valeurs propres correspondantes sont audessus de la droite joignant les dernières valeurs propres. Par exemple, si le graphique avait l’allure suivante:
Analyse des données. Graphique des valeurs propres 4
3
2
e r p 1 o r p r u e l a V 0 1
2
3
4
5
6
7
8
Numéro de composant
on aurait retenu une seule composante selon Cattell, et 4 selon Kaiser.
3.4. Interprétation des axes factoriels. On se base sur les corrélations entre les composantes principales et les variables initiales, ces corrélations peuvent être représentées par un graphique appelé cercle de corrélation. On cherche les variables initiales qui sont fortement corrélées avec les axes, ce qui permet de donner une interprétation aux axes. Il faut regarder le niveau de corrélation de la variable avec l’axe ainsi que le sens de la corrélation (positive ou négative).
3.5. Représentation Représentation des individus. Les coordonnées en composantes (factor scores), c'est-à-dire les cordonnées des individus sur les composantes princip principales ales C1, C2,....,Cr , où r p, peuvent être représentés graphiquement afin examinées afin d’établir d’une part des liens entre les variables variables et les les indi indivi vidus dus et d’autre d’aut re part, effectuer une typologie.
9
Analyse des données.
4. APPLICATION NUMERIQUE. Etude du comportement bancaire des clients d’une banque. Une agence bancaire réalise une étude visant à mieux connaître la situation et le comportement de sa clientèle à partir des données figurant dans ses fichiers informatiques de gestion. Elle a constitué un échantillon de 50 clients titulaires d’un compte courant appartenant à des ménages différents. Pour décrire l’échantillon, l’agence a relevé 11 variables quantitatives exprimant leur comportement bancaire :
SOLDE : Solde moyen moyen du compte. CHEQUE : Montant Monta nt moyen des chèques tirés lors du dernier semestre. NB_DEC : Nombre Nombre de mois mois avec découvert lors de l’année l’année précédente. MT_DEC : Montant Monta nt cumulé cumulé des découverts déco uverts lors de l’année l’année précédente. NB_PR : Nombre Nombre de produits de la banque utili utilisés en plus du compte courant. NB_EMP : Nombre Nombre d’emprunts d’emprunts divers divers effectués effectués lors des cinq dernières années. MT_EMP : Montant total tot al des emprunts emprunts effectués effectués lors des cinq dernières années. P_VA_D_E : Pourcentage de variation variation des dépôts d’épargne pour les douze derniers derniers mois. mois. MT_DEP_E : Montant total des dépôts sur les les comptes comptes d’épargne effectués lors de l’année précédente. MT_RET_E : Montant total des retraits sur les les comptes comptes d’épargne effectués lors de l’année précédente. P_VA_R_E : Pourcentage de variation variation des retraits sur les comptes d’épargne pour les douze derniers mois.
Analyse des données.
Les informations collectées sont rassemblées dans le tableau suivant : client
SOLDE
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46
2305 15259 1236 8241 6210 6871 1580 9630 4230 3620 10258 23698 3698 231 501 3693 963 15802 502 7896 23698 27896 5687 1269 3687 9631 75632 5523 6984 85214 4235 3691 4563 2587 3654 547 5821 12587 6981 25871 15236 12369 4563 12258 7529 6987
CH NB_DEC MT_DEC NB_PR EQUE 253 7 2,3 0 1024 0 ,0 3 156 10 5,4 1 455 1 ,1 6 1022 2 ,3 5 321 1 3,0 6 150 9 6,1 2 562 1 4,0 5 63 3 2,7 2 84 5 9,8 1 1255 0 ,0 6 52 1 2,9 2 854 0 ,0 1 68 12 8,9 1 255 0 ,0 1 24 0 ,0 2 92 1 ,9 1 1122 0 ,0 2 751 6 3,0 2 1236 1 6,0 6 969 0 ,0 3 425 1 2,3 3 303 1 3,6 5 451 0 ,0 1 152 3 ,6 2 147 0 ,0 2 954 0 ,0 3 136 1 1,2 5 254 2 ,3 4 2360 0 ,0 3 258 1 ,4 4 1025 2 2,0 3 655 3 ,2 4 489 0 ,0 3 257 4 ,4 1 98 0 ,0 2 1025 0 ,0 5 587 0 ,0 3 163 1 3,0 4 125 0 ,0 3 254 0 ,0 6 128 0 ,0 3 962 8 5,6 3 2301 0 ,0 3 587 0 ,0 5 1027 1 ,4 6
NB_ MT_EMP P_VA EMP _D_E 1 8,5 -2 1 25,0 9 0 ,0 3 4 210,0 4 3 113,0 3 4 200,0 3 1 8,0 2 3 111,0 4 0 ,0 1 1 81,0 -3 4 310,0 5 0 ,0 12 1 5,0 -2 0 ,0 -1 1 5,0 -3 0 ,0 2 0 ,0 -1 0 ,0 10 2 8,5 1 3 250,7 3 0 ,0 12 0 ,0 15 3 155,0 3 2 15,0 -1 1 25,0 -2 0 ,0 9 0 ,0 13 4 110,1 5 3 125,1 3 0 ,0 9 1 30,0 -2 0 ,0 1 0 ,0 -2 0 39,1 4 8 25,6 -2 2 25,0 6 3 110,0 4 0 ,0 8 3 98,0 3 0 ,0 11 3 221,0 3 0 ,0 9 0 ,0 -1 1 15,0 8 2 200,0 3 30 158,0 4
MT_ MT_RET_E P_VA DEP_E _R_E 3,1 ,7 3 500 ,0 0 6,0 2,0 1 32,0 36,0 3 150 80,5 2 125 98,0 3 6,5 5,5 1 225 110,5 2 5,1 20,0 -3 7,2 3,1 8 252 253,7 3 523 2,0 1 1,5 3,2 1 ,5 ,1 0 10,2 10,1 1 1,2 21,5 2 105 6,1 -1 611 ,1 -1 61,2 ,8 6 188 98,1 3 916 8,1 -1 523 ,0 0 261 110,0 2 51,3 5,1 3 ,1 52,0 -3 656 ,0 0 889 ,0 0 110 110,5 2 131 85,1 3 633 1,0 -1 32,7 13,6 1 52,0 ,1 3 12,0 10,8 7 65,7 45,1 -1 ,5 42,5 -1 72,5 ,1 7 115 135,2 4 452 5,0 1 92,3 85,2 2 754 ,1 0 123 97,0 2 651 ,0 0 23,1 9,2 2 591 10,0 1 117 81,0 5 165 80,1 -1
Analyse des données. 47 48 49 50
9632 3654 25412 3654
238 1456 698 150
1 0 0 1
,8 ,0 ,0 ,9
4 2 2 0
2 5 0 0
151,0 65,0 ,0 ,0
3 -1 12 -2
127 65,0 658 7,0
77,0 6,0 ,0 42,0
La procédure SPSS pour effectuer l’analyse en composantes princip principales ales est est la suivan suivante te : - Analyse Factorisation Analyse factorielle - Dans Variables, sélectionner toutes les variables métriques à factoriser. - Dans Caractéristiques, cocher caractéristiques uni variées et coefficients de corrélation. - Dans Extraction, cocher Graphique des valeurs propres et dans nombre de facteurs saisissez 2. - Dans Facteurs, cocher Enregistrer dans des variables. - Dans Rotation, Rot ation, cocher Carte Cart e factori factor ielle. elle. - Dans Option, cocher Classement des variables par taille et Supprimer les valeurs absolues inférieures à 0,10 ; ceci permettra de sélectionner les variables les plus importantes et cacher celles qui n’expliquent pas les dimensions. Les résultats de l’analyse sont :
2 2 -1 9
Analyse des données.
a) Statistiques descriptives des variables. Statistiques descriptives
Moyenne 10869,52
Ecart-type 16017,19
n analyse 50
CHEQUE
568,66
5 3 6 ,7 2
50
NB_DEC
1,80
2,88
50
MT_DEC
1,542
2 ,3 9 5
50
NB_PR
3,04
1,71
50
NB_EMP
2,04
4,39
50
MT_EMP
58,072
8 1 ,5 7 7
50
P_VA_D_E
3,70
4,81
50
MT_DEP_E
223,176
268,598
50
MT_RET_E
37,276
5 1 ,4 1 2
50
P_VA_R_E
1,68
2,57
50
SOLDE
En rapportant l’écart type à la moyenne, on peut conclure que toutes les variables sont très dispersées, ce qui indique un comportement comportement très hétérogène des clien clients. ts.
b) Matrice de corrélation des variables initiales.
Analyse des données. Matric Matric e de corrélation
OLD HEQUB_ UB_DE T_DE B_P Corrél SOLD ,000 ,450 -,293 -,223 ,087 CHEQ ,450 1,000 -,256 -,239 ,244 NB_D -,293 -,256 1,000 ,745 -,346
B_EM T_EM VA_D _DEP _RET VA_R -,130 -,138 ,634 ,704 -,154 -,295 ,129 ,095
,247
,3 4 6
,067 -,088
-,075 -,218 -,409 -,425 -,216
,066
MT_D -,223 -,239 ,745 1,000 -,136 -,090 ,027 -,282 -,310 -,054 ,191 NB_P ,087 ,244 -,346 -,136 1,000 ,393 ,805 ,217 ,067 ,709 ,063 NB_E -,130 ,129 -,075 -,090 ,393 1,000 ,411 -,100 -,165 ,343 -,066 MT_E -,138 ,095 -,218 ,027 ,805 ,411 1,000 -,083 -,214 ,847 ,253 P_VA ,634 ,247 -,409 -,282 ,217 -,100 -,083 1,000 ,890 -,089 -,348 MT_D ,704 ,346 -,425 -,310 ,067 -,165 -,214 ,890 1,000 -,207 -,393 MT_R -,154 ,067 -,216 -,054 ,709 ,343 ,847 -,089 -,207 1,000 ,169 P_VA -,295 -,088 ,066 ,191 ,063 -,066 ,253 -,348 -,393
Dans l’ensemble, les variables sont faiblement corrélées entre elles. On note cependant une corrélation relativement forte entre Pourcentage de variation des dépôts d’épargne pour les douze derniers mois et montant total des dépôts sur les comptes d’épargne effectués lors de l’année précédente.
c) Choix des composantes principales.
,169 1,000
Analyse des données. Variance expliquée totale
Valeurs propres initiales Composante 1
% de la Total variance == == % cumulés 3,436 31,237 3 1 ,2 3 7
2
3,037
27,607
5 8 ,8 4 4
3
1,170
10,639
6 9 ,4 8 3
4
,9 9 1
9,007
7 8 ,4 8 9
5
,8 7 0
7,911
8 6 ,4 0 0
6
,5 4 4
4,943
9 1 ,3 4 3
7
,3 3 9
3,082
9 4 ,4 2 5
8
,2 2 8
2,075
9 6 ,5 0 0
9
,2 0 5
1,859
9 8 ,3 5 9
10
,1 0 1
,9 1 7
9 9 ,2 7 7
11
,956E-02
,7 2 3
100,000
Sommes des carrés chargées % de la Total varia variance nce == % cumu cumulés lés 3 ,4 3 6 31,237 31,237 3 ,0 3 7
27,607
Méthode d'extraction : Analyse des principaux composants.
SPSS a calculé 11 composantes, la première a une valeur propre , c’est à dire variance de 3,436 qui représente 31,237 % de la variance totale des variables initiales. Les 2 premières composantes contribuent, ensemble, à 58,844 % de la variance initiale.
58,844
Analyse des données. Graphique des valeurs propres 4
3
2
e r p 1 o r p r u e l a V 0 1
2
3
4
5
6
7
8
9
10
11
Numéro de composant
Selon le graphique des valeurs propres, on peut retenir deux composantes principales. En effet, la différence de variance entre la deuxième composante et la troisième est très importante.
Analyse des données. Qualité de représentation
Initial
Extraction
solde moyen du compte courant
1,000
,632
montant moyen des chèques tirés lors du dernier dernier semestre sem estre
1,000
,301
nombre de mois avec découvert sur le compte courant lors de l'année précédante
1,000
,557
montant cumulé des découverts découverts sur le compte com pte couranr lors de l'année précédante (en milliers)
1,000
,365
nombre de produits de la banque utilisés en plus du compte courant courant
1,000
,806
nombre d'emprun d'em prunts ts divers effectués lors des 5 dernières années
1,000
,314
montant total des emprunts effectués lors des 5 dernières années (en milliers)
1,000
,877
pourcentage de variation des dépôts d'épargne pour les 12 derniers mois
1,000
,730
montant total des dépôts sur les comptes d'épargne effectués lors de l'année précédante (en milliers)
1,000
,840
montant total des retraits sur les comptes d'épargne effectués lors de l'année précédante (en milliers)
1,000
,792
pourcentage de variation des retraits sur les comptes d'épargne pour pour les 12 derniers mois
1,000
,258
Méthode d'extraction : Analyse des principaux composants.
Analyse des données.
La qualité de représentation exprime la part de la variance des variables initiales qui est restituée par les composantes retenues. Ainsi les deux composantes contribuent à 63,2% de la variance du solde moyen du compte courant. Les deux composantes sont suffisantes pour synthétiser les variances de la majorité des variables. variables. Les variables variables pourcentage pour centage de variation variation des retraits ret raits sur les comptes d’épargne pour les douze derniers mois, nombre d’emprunts divers effectués lors des cinq dernières années, montant cumulé des découverts lors de l’année précédente et montant moyen des chèques tirés lors du dernier semestre ne sont pas bien prises en compte par les deux composantes retenues, ce qui suggère l’existence d’une ou plusieurs autres composantes principales pertinentes.
d) Interprétation des axes factoriels.
Analyse des données. Matrice Matrice des comp osantes osantes
a
Composante 1
2
montant total des dépôts sur les comptes comptes d'épargne effectué effectués s lors de l'année précédante (en milliers)
,891
pourcentage de variation des dépôts d'épargne pour les 12 derniers mois mois
,850
solde moyen du compte courant
,779
-,159
nombre de mois avec découvert sur le compte courant lors de l'année précédante
-,660
-,349
montant cumulé des découverts sur le compte couranr lors de l'année précédante (en milliers) milliers)
-,583
-,157
,518
,181
-,445
,244
montant moyen des chèques tirés lors du dernier semestre pourcentage de variation des retraits sur les comptes d'épargne pour les 12 derniers mois
-,217
montant total des emprunts effectués lors des 5 dernières années (en milliers)
,934
montant total des retraits sur les comptes comptes d'épargne effectué effectués s lors de l'année précédante (en milliers)
,888
nombre de produits de la banque utilisés en plus du compte courant nombre d'emprunts divers effectués lors des 5 dernières années
,250
,862
,560
Méthode d'extraction : Analyse An alyse en composantes principales. a. 2 composantes extraites.
Analyse des données.
Diagramme de composantes composantes mt_emp mt_ret_e
1,0
nb_pr
nb_emp ,5 p_va_r_e
cheque
0,0
p_va_d_e solde mt_dep_e
mt_dec
2 e t -,5 n a s o p m o C -1,0 -1,0
nb_dec
-,5
0,0
,5
Composante 1
La matrice des composantes ou le diagramme des composantes, indiquent les corrélations des variables initiales avec les composantes principales. Ainsi la première composante est fortement corrélée positivement avec Montant total des dépôts sur les comptes d’épargne effectués lors de l’année précédente, Pourcentage de variation des dépôts d’épargne pour les douze derniers mois et Solde moyen du compte. Elle est corrélée négativement avec Nombre de mois avec découvert lors de l’année ’année précédente précédente et Montant cumul cumuléé des découverts lors lors de l’année précédente. On peut donc conclure que la première composante met en opposition deux catégories de clients de comportements totalement opposé, d’un côté, une catégorie de
1,0
Analyse des données.
clients qu’on peut qualifier d’épargnants et d’un autre côté, une deuxième catégorie de clients qu’on peut qualifier de dépensiers. La deuxième composante est fortement corrélée avec Nombre d’emprunts divers effectués lors des cinq dernières années, Montant total des retraits sur les comptes d’épargne effectués lors de l’année précédente et Nombre de produits de la banque utilisés en plus du compte courant. On peut comprendre de ces trois variables qu’il s’agit d’un comportement d’investissement. Cette deuxième composantes principales permet de distinguer une troisième catégories de clients qu’on peut qualifier d’investisseurs.
e) Représentation des individus. La procédure SPSS pour élaborer le graphe des individus est la suivante : - Sélectionner dans le menu Graphes, Diagramme de disperssion. - Cliquer sur défini définir. r. - Faire glisser la variable REGR Factor Score 1 dans l’axe X et REGR Factor Score 2 dans l’axe Y. - Faire glisser glisser la variable variable CLIENT vers « étiqueter étiquet er les observations par » afin d’afficher les numéros des clients. - Cliquer sur Options et cocher « Afficher le diagramme avec les étiquettes d’observ d’o bservations ations ».
Analyse des données. 4
11
3
1
46
s i s 2 y l a n a r 1 o f 2
20 41 6 45 4 37 23 28 85 2947 39
e r o 0 c s r o t c a -1 f
10
14
R G E R -2
-3
-2
71 3
33 31 35 36 25 32 16 50 24 19 15 13 43 917
-1
48 34
44 2 38 42 18 224049 21 26 12
0
REGR factor score 1 for analysis
1
30 27
2
1
Le graphe des individus indique que les clients 30 et 27 représentent les plus grands épargnants, les clients 10 et 14 sont des grands dépensiers alors que les clients 11 et 46 sont des grands investisseurs. Les clients proches du barycentre sont des clients dont le comportement n’est pas très bien définit.
3