e-Miage Master MIAGE M1 Florin Craciun Devoir n°1 Module : C106 Intitulé du module : Analyse de données
Note importante : Le rendu d'un devoir est un travail personnel. En rendant son devoir l'étudiant garantitsur son honneur que son travail est à 100% personnel.
Le but des deux premiers exercices est la révision de notions apprises à divers niveaux et oubliées. Les connaissances contenues dedans sont des bases solides pour acquérir da suite. Exercice 1 : 1- Compléter le tableau ci-dessous Caractères Sexe
Qualitatif
Quantitatif discret
Quantitatif continu
X
Taille
X
Age
X
Etat matrimonial
X X
Poids Couleur des yeux
X
Tension artérielle
X
Taux de cholestérol
X
Région habitée Chiffres d’affaires d’une PME agroalimentaire
X X
Taille des entreprises du secteur tertiaire
X
Quotient familial d’un contribuable
X
Nombre de personnes habitant une résidence principale
X
Nombre de places de cinéma associé à chaque salle
X
Nombre d’enfants
X
par ménage
1 /3
2- Donner un exemple complété par des calculs et/ou graphiques d’une variable : Nominale. Les variables nominales sont des variables non numériques. Exemple : les professions dans une population. Ordinale Example : les qualificatifs dans une compétition sportive : premier, 2eme, dernier etc Qualitative à coder Pendant vos études secondaires avez-vous été initié à l’informatique ? Oui Non Codage : Variable : 1 si oui 0 sinon Quantitative discrète Les variables quantitatives discrètes: sont des valeurs que l’on peut énumérer, il est inutile d’utiliser des classes pour les exprimer. Par exemple, le nombre de personnes dans le ménage, le nombre de cellulaires ou bien le nombre de présence au centre commercial par mois sont autant de possibilités pour des variables quantitatives discrètes. Quantitative continue Les variables quantitatives continues: sont des valeurs très nombreuses dont l’énumération serait fastidieuse. Il est donc préférable de les exprimer en classe de largeur égale. Par exemple, le poids est une variable quantitative continue puisqu’il est possible de peser autant 4kg à 600 kg et même beaucoup plus si s’attarde au poids des voitures par exemple. Exercice 2 : On étudie la distribution des principaux impôts en France en 2002. Les valeurs sont données en milliards d’euros. Source : Administration fiscale
Impôts Locaux Taxe professionnelle
Taxe d’habitation
Taxes foncières sur propriétés bâties
26.3 12 1) Donner le tableau en fréquence.
19.8
26.3 0.08668 12 0.03955 19.8 0.06526 50.5 0.16644 46.1 0.15194 123.2 0.40606 25.5 0.08404 Total : 303.4 1 2) Quelle est la part des impôts locaux ?
(8.7%) (4.0%) (6.5%) (16.6%) (15.2%) (40.6%) (8.4%) (100%)
Total impôts locaux = 58.1 Total impôts general = 303.4 La part des impôts locaux est : 19.14%
2 /3
Impôts nationaux Impôt Impôt sur le sur les revenu sociétés
TVA
Taxes sur les produits pétroliers
50.5
123.2
25.5
46.1
3) Donner les tableaux en fréquence des impôts locaux, des impôts nationaux Impots Locaux 26.3 12 19.8 Total = 58.1 Impots Nationaux 50.5 46.1 123.2 25.5 Total : 245.3
0.45266 0.20654 0.34079 1
(45.3%) (20.7%) (34.0%) (100%)
0.20587 0.18793 0.50224 0.10395 1
(20.6%) (18.8%) (50.2%) (10.4%) (100%)
Analyse des corrélations et régression linéaire. Problème : On étudie 20 individus suivant 3 variables : X1 l’âge, X2 le solde du mois de décembre 2010, X3 l’épargne du livret A à la fin 2010. Le tableau qui suit résume les données récoltées par une banque imaginaire. Individus
Age (X1)
Solde janvier (X2)
Epargne annuelle
1
45
1150
3541
2
67
1600
4930
3
34
910
2800
4
12
320
980
5
28
650
2000
6
55
1300
4000
7
33
800
2500
8
27
650
2010
9
68
1750
5400
10
43
1000
3000
11
44
1200
3400
12
52
1350
2500
13
25
600
1500
14
35
1500
3000
15
48
2500
3200
16
62
1880
4000
17
39
1750
3300
18
64
1550
2880
19
58
1400
3000
20
19
800
1200
3 /3
1) Réaliser une analyse statistique descriptive pour chacune des variables. Age Solde Epargne Age 80 60
68
67 45
43 34
40
33
28
64
62
55
52
44
39
35
27
58
48 25
19
12
20 0 1
2
3
4
5
6
Moyenne = 42.9
7
8
9
10
Min = 12 - Max = 68
11
12
13
14
15
Médiane = 43.6
16
17
18
19
20
Ecart-type=16.36
Solde 3000
2500
2500 2000
1750
1600
1500
1300
1150
910
1000
800
650
1000
1200
1350
650
1550
1400 800
600
320
500
1880 1750
1500
0 1
2
3
4
Moyenne = 1233
5
6
7
8
9
10
11
Min = 320 - Max = 2500
12
13
14
15
Médiane = 1250
16
17
18
19
20
Ecart-type= 531.46
Epargne
6000 5000 4000
5400
4930 4000
3541 2800
3000
2500
2000
2000
3000
4000
3400
2010
2880 3000
1500
980
1000
3300
3000 3200
2500
1200
0 1
2
3
4
Moyenne = 2957.05
5
6
7
8
9
10
Min = 980 - Max = 5400
11
12
13
14
Médiane = 3000
4 /3
15
16
17
18
19
20
Ecart-type= 1127.07
2) De la question 1 préciser pour chacune des variables : la moyenne arithmétique, la variance ainsi que l’écart type.
[Moyenne arithmétique, variance, l’écart type] Variable X1 – Age : Individus
Age X1
X - moyenne
(X - moyenne)^2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Somme
45 67 34 12 28 55 33 27 68 43 44 52 25 35 48 62 39 64 58 19 858
2.1 24.1 -8.9 -30.9 -14.9 12.1 -9.9 -15.9 25.1 0.1 1.1 9.1 -17.9 -7.9 5.1 19.1 -3.9 21.1 15.1 -23.9 0.00
4.41 580.81 79.21 954.81 222.01 146.41 98.01 252.81 630.01 0.01 1.21 82.81 320.41 62.41 26.01 364.81 15.21 445.21 228.01 571.21 5085.8
Moyenne
42.9
Nombre individus
20
20
20
Variance Ecart type
267.6736842 16.36073605
5 /3
[Moyenne arithmétique, variance, l’écart type] Variable X2 – Solde Janvier Individus 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Somme
Solde Janvier X2 1150 1600 910 320 650 1300 800 650 1750 1000 1200 1350 600 1500 2500 1880 1750 1550 1400 800 24660
Moyenne
1233
Nombre individus
20
X - moyenne
(X - moyenne)^2
-83 367 -323 -913 -583 67 -433 -583 517 -233 -33 117 -633 267 1267 647 517 317 167 -433 0.00
6889 134689 104329 833569 339889 4489 187489 339889 267289 54289 1089 13689 400689 71289 1605289 418609 267289 100489 27889 187489 5366620
20
Variance Ecart type
20
282453.6842 531.4637186
[Moyenne arithmétique, variance, l’écart type] Variable X3 – Epargne annuelle Individus 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Somme
Epargne annuelle X3 3541 4930 2800 980 2000 4000 2500 2010 5400 3000 3400 2500 1500 3000 3200 4000 3300 2880 3000 1200 59141
Moyenne
2957.05
Nombre individus
20
Variance Ecart type
X - moyenne
(X - moyenne)^2
583.95 1972.95 -157.05 -1977.05 -957.05 1042.95 -457.05 -947.05 2442.95 42.95 442.95 -457.05 -1457.05 42.95 242.95 1042.95 342.95 -77.05 42.95 -1757.05 0.00
340997.6025 3892531.703 24664.7025 3908726.703 915944.7025 1087744.703 208894.7025 896903.7025 5968004.703 1844.7025 196204.7025 208894.7025 2122994.703 1844.7025 59024.7025 1087744.703 117614.7025 5936.7025 1844.7025 3087224.703 24135586.95
20
20
1270294.05 1127.073223
6 /3
3) Calculer les coefficients de corrélation des variables par paire. Variables X1, X2 individus 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Sum
cc
Age X1 45 67 34 12 28 55 33 27 68 43 44 52 25 35 48 62 39 64 58 19 858
∑
∑ √
∑
Solde janvier X2 1150 1600 910 320 650 1300 800 650 1750 1000 1200 1350 600 1500 2500 1880 1750 1550 1400 800 24660
∑
∑ ∑
∑
x1x2 51750 107200 30940 3840 18200 71500 26400 17550 119000 43000 52800 70200 15000 52500 120000 116560 68250 99200 81200 15200 1180290
x1^2 2025 4489 1156 144 784 3025 1089 729 4624 1849 1936 2704 625 1225 2304 3844 1521 4096 3364 361 41894
x2^2 1322500 2560000 828100 102400 422500 1690000 640000 422500 3062500 1000000 1440000 1822500 360000 2250000 6250000 3534400 3062500 2402500 1960000 640000 35772400
=√
=
Coefficient de corrélation pour la paire X1,X2 est : 0.74074 Même méthode de calcul pour les paires des variables X1,X3 et X2,X3 Coefficient de corrélation pour la paire X1,X3 est : 0.86185 Coefficient de corrélation pour la paire X2,X3 est : 0.68625 4) Effectuer une analyse explicative de la variable épargne X3 en fonction des deux variables soldes fin d’année 2010 (X2) et Age (X1), ce qui revient à réaliser une régression linéaire multiple, ou écrire : (1) X3=α +βX1+γX2 Variable x 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
45 67 34 12 28 55 33 27 68 43 44 52 25 35 48 62 39 64 58 19
Variable y 1150 1600 910 320 650 1300 800 650 1750 1000 1200 1350 600 1500 2500 1880 1750 1550 1400 800
7 /3
3541 4930 2800 980 2000 4000 2500 2010 5400 3000 3400 2500 1500 3000 3200 4000 3300 2880 3000 1200
x’ 1 45 1150
1 67 1600
1 34 910
1 12 320
1 28 650
1 55 1300
1 33 800
1 27 650
1 68 1750
1 43 1000
1 44 1200
1 52 1350
1 25 600
1 35 1500
1 48 2500
1 62 1880
1 39 1750
1 64 1550
1 58 1400
1 19 800
x’x 20 858 24660
858 41894 1180290
24660 1180290 35772400
x’x-1 0,428508 -0,006441 -0,000083
-0,006441 0,000436 -0,000010
-0,000083 -0,000010 0,000000
x’y 59141 2839105 80852250
x’x-1 * x’y α =354,8076048 β =52,75924533 γ =0,274834364
x3= 354.81 + 52.759 *x1 + 0.275*x2
pour la premiere variable x3 => x3=354.807+52.759*45 + 0.274*1150=3044 5) Comparer les valeurs obtenues par la relation (1) avec les données observées (celles du tableau). x1
x2 45 67 34 12 28 55 33 27 68 43 44 52 25 35 48 62 39 64 58 19
1150 1600 910 320 650 1300 800 650 1750 1000 1200 1350 600 1500 2500 1880 1750 1550 1400 800
Epargne annuelle réelle
Previsions sur l'epargne
x3
x3' 3541 4930 2800 980 2000 4000 2500 2010 5400 3000 3400 2500 1500 3000 3200 4000 3300 2880 3000 1200
Residu (x3'-x3) 3044.062 4328.06 2397.953 1075.595 2010.159 3612.752 2315.054 1957.4 4421.919 2897.444 3005.003 3468.175 1838.182 2612.372 3572.239 4140.985 2891.908 4156.083 3798.429 1576.428
8 /3
-496.938 -601.94 -402.047 95.595 10.159 -387.248 -184.946 -52.6 -978.081 -102.556 -394.997 968.175 338.182 -387.628 372.239 140.985 -408.092 1276.083 798.429 376.428
6000 5000 4000 3000
x3
2000
x3'
1000
Residu (x3'-x3)
0 -1000
0
5
10
15
20
25
-2000
6) En supposant que la relation (1) décrit correctement liaisons entres les 3 variables exprimer l’épargne pour en homme de 20 ans et dont le salaire est 1350euro. x3=354.807 + 52.759*20 + 0.274*1350 = 1779 L'eparne annuelle d'un homme de 20 ans avec un salaire de 1350 euros sera 1779 euros
9 /3