Analyse des données.
ANALYSE FACTORIELLE DES CORRESPONDANCES (AFC)
1. INTRODUCTION. INTRODUCTION. L’analyse factorielle des correspondances a pour but l’étude de la relation de dépendance qui existe entre deux variables nominales. La correspondance ou dépendance est illustrée par des représentations graphiques. L’AFC L’AFC permet de répondre à deux questions : - y-a-t-il un lien entre entre les deux caractères carac tères ét udiés ? - Si oui, comment comment se comporte co mporte un facteur par rapport r apport à l’autre facteur ? L’AFC constitue donc un prolongement du test Khi deux de l’indépendance de deux variables nominales. L’AFC s’applique à des données qui se présentent sous forme d’un tableau de fréquences à deux entrées. Ces fréquences constituent les élément d’une matrice, de dimensions n lignes et p colonnes, n et p représentant les nombres de modalités relatives aux deux critères pris pr is en considération. Les lignes et les colonnes sont de même nature, elles jouent un rôle symétrique contrairement à la matrice des données pour une analyse en composantes principales, où les lignes correspondent aux individus et les colonnes aux variables. Cette symétrie permet de réaliser deux ACP et de porter les deux analyses analyses sur un même même graphique. graphique. Le principe de l’AFC est identique à celui de l’ACP, à savoir identifier un petit nombre de dimensions pour simplifier et interpréter un ensemble de données relativement important tout en minimisant au maximum la perte d’information.
2. INTERPRETATION DES RESULTATS DE L’AFC. L’interprét L’interprétation ation d’une AFC est composée des ét apes suivantes suivantes :
2.1. Analyse du tableau des correspondances. Il s’agit du tableau de fréquences ou tableau de contingence, cette analyse portent sur les fréquences conditionnelles exprimées en pourcentages lignes et pourcentages colonnes, appelées aussi profils lignes et profils colonnes. 1
Adil ELMARHOUM
Analyse des données.
2.2. Choix du nombre de dimensions. dimensions. le nombre total de dimensions est égal au minimum du nombre de lignes et nombre de colonnes diminué de 1. le choix du nombre de dimensions principales est basée sur le taux d’inertie qui quantifie la part d’information extraite par chaque dimension. C’est l’équivalent de la variance en ACP.
2.3. Interprétation des dimensions. Pour interpréter une dimension, on utilise :
- Les contributions des lignes et des colonnes au dimension : elles représentent, en pourcentage, les parts de chaque modalité dans l’inertie l’inertie totale tot ale des dimension dimensions. s. Plus cette cett e part est élevée, élevée, et plus la modalité modalité caractérise le mieux mieux la dimen dimension. sion. - Qualité de la représentation des lignes et des colonnes dans les sous-espaces constitués des dimensions : elle indique la capacité des dimensions à restituer l’information contenue dans la variable initiale. Un pourcentage élevé traduit une perte d’information minime. minime. - Représentation Représentation graphique : Contrairement à l’analyse en composantes principales, où on effectue habituellement des graphiques séparés pour les individus et variables, l’AFC utilise une représentation graphique simultanée des points lignes et des points colonnes dans un plan factoriel, elle met en correspondance les liens éventuels entre les modalités des deux caractères étudiés. Dans ces graphiques, la proximité de deux points linges ou de deux points points colonnes traduit la similitude des profils, c’est à dire des distributions conditionnelles, relatifs à ces deux lignes ou à ces deux colonnes. En pratique, on repère en premier lieu les points lignes et les points colonnes qui ont une forte contribution aux facteurs utilisés pour la représentation graphique et qui ont, en même temps, une qualité qualité de représentation représent ation satisfaisante. Pour ces points, on examine examine alors les projections sur les axes et plus particulièrement le signe de ces projections, de manière à mettre en évidence les éventuelles conjonctions ou opposition.
2
Adil ELMARHOUM
Analyse des données.
3. APPLICATION NUMERIQUE. Parmi les objectifs d’une étude est l’étude de la fréquence d’achat d’une marque d’un produit d’hygiène d’hygiène en fonction de de l’âge du consommateur. consommateur. On voudrait voudrait savoir quelle quelle est la tranche d’âge la plus réceptive à cette marque. Un échantillon de 420 personnes a été interrogé. On a effectué un tri croisé entre les différentes classes d’âge des répondants et la variable fréquence d’achat comportant 4 modalités. Les classes d’âges sont au nombre de 6 : Moins de 20 ans ; 20 à moins de 25 ans ; 25 à moins de 35 ans ; 35 à moins de 45 ans ; 45 à moins de 60 ans ; 60 ans et plus. Les modalités de la variable fréquence fr équence d’achat sont : Systématiquement ; Souvent So uvent ; Occasionnellement ; Jamais. Les données ont été saisies sur SPSS en définissant deux variables : la variable âge et la variable fréquence d’achat. Les modalités de la variable âge sont codées de 1 à 6, celles de la variable variable fréquence d’achat sont codées de 1 à 4. Une analyse factorielle des correspondances a été effectué dans le but de savoir si la fréquence d’achat est liée à l’âge du consommateur, et dans l’affirmative, comment se comporte cette cet te fréquence d’achat d’achat en fonction des différentes différentes tranches d’âge. La procédure SPSS pour réaliser réaliser une AFC est la suivante suivante : - Analyse Factorisation Analyse des correspondances. - Dans Ligne, glisser la variable correspondant aux lignes du tableau croisé. Cliquer sur définir intervalle, saisissez la valeur minimale des codes (généralement 1) et la valeur maximale (généralement le nombre de modalités) puis cliquez sur mettre à jour puis poursuivre. - Dans Colonne, glisser la variable correspondant aux colonnes du tableau croisé. Cliquer sur définir intervalle, saisissez la valeur minimale des codes (généralement 1) et la valeur maximale (généralement le nombre de modalités) puis cliquez sur mettre à jour puis poursuivre. - Dans Modèles, saisissez le nombre de dimensions à retenir dans dimensions de la solution (souvent 2 ou 3). - Dans Statistiques, cochez profils lignes et profils colonnes. Les résultats de l’analyse sont :
3
Adil ELMARHOUM
Analyse des données.
a) Analyse du tableau des correspondances. Tableau des correspondances Fréquence d'achat de la marque Systémati Age du consommateu quement Moins de 20 ans 7 20 à moins de 25 ans 4
Souvent 7
Occasion nelement 24
26
39
7
76
Jamais Marge ac active 10 48
25 à moins de 35 ans
6
19
26
10
61
35 à moins de 45 ans
13
31
37
4
85
45 à moins de 60 ans
4
46
36
13
99
60 ans et plus
12
20
13
6
51
Marge active
46
149
175
50
420
Chaque case du tableau représente le nombre d’individus présentant les deux modalités considérées. Dans la première case par exemple, 7 individus sont âgés de moins de 20 ans et déclarent faire achat systématique de la marque. Profils lignes Fréquence d'achat de la marque Systémati Age du consommateu quement Moins de 20 ans ,146 20 à moins de 25 ans ,053
Souvent ,146
Occasion nelement ,500
,342
,513
,092
1,000
Jamais Marge active ,208 1,000
25 à moins de 35 ans
,098
,311
,426
,164
1,000
35 à moins de 45 ans
,153
,365
,435
,047
1,000
45 à moins de 60 ans
,040
,465
,364
,131
1,000
60 ans et plus
,235
,392
,255
,118
1,000
Masse
,110
,355
,417
,119
Ce tableau présente le pourcentage que représente l’effectif du tableau des correspondances par rapport au total de la ligne. Ainsi 14,6 % des individus âgés de moins de 20 ans, déclarent acheter systématiquement la marque. L’analyse de cette première première ligne ligne montre que les consommateurs consommateurs âgés de moins moins de 20 ans ont tendance à acheter occasionnellement la marque (50%). Un achat souvent de la marque semble être une tendance pour les plus de 60 ans (39,2%).
4
Adil ELMARHOUM
Analyse des données. Profils colonnes Fréquence d'achat de la marque Systémati Age du consommateur quement Moins de 20 ans ,152 20 à moins de 25 ans ,087
Souvent ,047
Occasion nelement ,137
Jamais ,200
Masse ,114
,174
,223
,140
,181
25 à moins de 35 ans
,130
,128
,149
,200
,145
35 à moins de 45 ans
,283
,208
,211
,080
,202
45 à moins de 60 ans
,087
,309
,206
,260
,236
60 ans et plus
,261
,134
,074
,120
,121
1,000
1,000
1,000
1,000
Marge active
Ce tableau présente le pourcentage que représente l’effectif du tableau des correspondances par rapport au total de la colonne. Ainsi 15,2 % des individus achetant systématiquement la marque, sont âgés de moins de 20 ans. L’analyse de cette première colonne montre montre que l’achat systématique systématique de la marque est surt out un comportemen co mportementt de la tranche d’âge 35 à moins moins de 45 ans (28,3%).
b) Choix du nombre de dimensions. dimensions. le nombre total de dimensions est égal au minimum du nombre de lignes et nombre de colonnes diminué de 1. La variable âge a 6 modalité, la fréquence d’achat en a 4, donc le nombre de dimensions est égal à (4-1)=3. Valeur singulière
Dimension 1 2 3 Total
,208 ,190 ,133
Résumé Inertie Khi-deux
,043 ,036 ,018 ,097
40,887
Sig.
,000
Proportion d'inertie Pris en compte
Cumulé
,446 ,372 ,182 1,000
,446 ,818 1,000 1,000
Au seuil de signification de 5 %, la valeur calculée de Khi deux (40,887) est de loin supérieur à la valeur théorique t héorique de la table qui est, pour 15 degré de liberté, de 24,996, ou la probabilité de signification (sig. = 0,000) est inférieur au seuil de 5 %, on rejette donc l’hypothèse de l’indépendance des deux variables. On conclut donc que l’âge des consommateurs a une influence sur la fréquence d’achat de la marque. le choix du nombre de dimensions principales est basée sur le taux d’inertie qui quantifie la part d’information extraite par chaque dimension. La première dimension contribue pour 44,6 % de l’inertie l’inertie totale, t otale, la deuxième deuxième dimension dimension contribue pour 37,2 % alors que la troisième dimension ne contribue que pour 18,2 %, soit moitié moins que la seconde dimension. Les deux dimensions contribuent ensemble pour 81,8 % de l’inertie totale. Il semble donc logique de négliger la troisième dimension pour ne retenir que les deux premières. premières.
5
Adil ELMARHOUM
Analyse des données.
c) Interprétation des dimensions. représentation des - Les contributions des lignes au dimension et qualité de la représentation lignes dans les sous-espaces constitués des dimensions.
Masse Age du consommateur
Moins de 20 ans 20 à moins de 25 ans 25 à moins de 35 ans 35 à moins de 45 ans 45 à moins de 60 ans 60 ans et plus Total actif
Score dans la dimension 1 2
Inerti e
Contribution De point à inertie de dimension 1 2
De dimension à inertie de point 1 2 Tota l ,214 ,775 ,989 ,568 ,115 ,683
,114 ,181
,474 -,399
-,944 -,188
,025 ,011
,123 ,138
,535 ,034
,145
,000
-,297
,003
,000
,067
,000
,711
,711
,202
,211
,296
,013
,043
,093
,150
,270
,419
,236
-,523
,244
,020
,310
,074
,667
,132
,799
,121 1,000
,814
,556
,026 ,097
,386 1,000
,197 1,000
,654
,279
,933
Pour la variable âge, la contribution la plus forte à la dimension 1 est celle de la tranche 60 ans et plus (38,6 %). La dimension 2 quant à elle, résulte de la contribution de la tranche moins moins de 20 ans (53,5 %). Les tranches tr anches d’âge 45 à moins de 60 ans et 60 ans et plus sont les mieux mieux représentées sur la dimension 1 (respectivement 66,7% et 65,4%), tandis que la dimension 2 représente mieux la tranche moins de 20 ans (77,5%).
- Les contributions des colonnes au dimension et qualité de la représentation des colonnes dans les sous-espaces constitués des dimensions.
Masse Score dans la Inertie dimension Fréquence d'achat de la marque
1
Systématiquement Souvent Occasionnelement Jamais Total actif
,110 1,265 ,270 ,355 -,268 ,508 ,417 -,128 -,322 ,119 ,083 -,633 1,000
2
,038 ,023 ,015 ,020 ,097
Contribution De point à inertie de dimension 1 2 ,841 ,042 ,122 ,480 ,033 ,227 ,004 ,251 1,000 1,000
6
De dimension à inertie de point 1 ,957 ,227 ,092 ,008
2 ,040 ,741 ,535 ,447
Total
,996 ,968 ,628 ,456
Adil ELMARHOUM
Analyse des données.
Pour la variable fréquence d’achat, la contribution la plus forte à la dimension 1 est celle de l’achat systématique (84,1 %). La dimension 2 quant à elle, résulte de la contribution de la modalité modalité souvent so uvent (48 %). La modalité achat systématique est la mieux représentée sur la dimension 1 (95,7%), tandis que la dimension 2 représente mieux la modalité souvent (74,1%). On peut donc affirmer que sur la dimension1, il y a une certaine correspondance entre la tranche d’âge 60 ans et plus et la modalité achat systématique, alors que la dimension 2 mais en correspondance la tranche d’âge moins de 20 ans et la modalité d’achat souvent mais en sens opposé puisque les scores dans la dimension 2 de ces deux modalités sont de signes opposés.
- Représentation Représentation graphique.
Points de ligne et de colonne Symétrique Normalisation Souvent
,6
35ans à moins de 45 ans ,4 45 à moins de 60
Systématiquement
,2 ,0 -,2
2 n -,4 o i s -,6 n e m -,8 i D -1,0 -1,0
20 à moins de 25 ans 25 à moins de 35 ans Occasionnelement Fréquence d'achat de
Jamais
la marque Moins de 20 ans Age du du consomm consommateu ateur r -,5
0,0
,5
1,0
1,5
Dimension 1
Ce diagramme confirme le résultat des tableaux des contributions, en effet, on peut voir sur l’axe horizontal une certaine correspondance entre la tranche d’âge 60 ans et plus et la modalité achat systématique, par contre sur l’axe vertical, on peut voir une nette opposition entre la tranche tr anche d’âge moins moins de 20 ans et la modalité modalité d’achat souvent. Comme synthèse du résultat de cette analyse factorielle des correspondances, on peut affirmer qu’il y a une opposition entre une classe d’âge âgée (60 ans et plus) à laquelle semble être associé un comportement d’achat systématique de la marque et une classe d’âge très jeune (moins de 20 ans) dont le comportement n’est pas clairement défini, mais opposé à un comportement que l’on pourrait qualifier de régulier (souvent). Les classes intermédiaires sont assez mal prises en compte dans l’analyse.
7
Adil ELMARHOUM