CONCEPT & ARCHITECTURE DU DATAMINING & WAREHOUSING 1
ABDELLAH DAISSAOUI
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
Je n’ai pas un problème de manque de données… … Mon problème est de pouvoir disposer de la bonne information au bon moment pour être en mesure de prendre la meilleure décision. 2
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
PROBLÉMATIQUE Ex1 : prédire le changement de loyauté des clients par rapport à un marché très compétitif Ex2 : quelles sont les vaches à garder dans la ferme et celles à vendre à un abattoir Ex3 : quels sont les clients susceptibles de s’intéresser à un nouveau produit Ex4: Anticiper les changements de comportement Ex5: Gestion de la date limite de conservation Ex6: le WinBack
3
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
POURQUOI FOUILLER LES DONNÉES ? De nombreuses données sont collectées et entreposées Données du Web, e-commerce Achats dans les supermarchés Transactions de cartes bancaires Capteurs : RFID, supervision de procédé Télescopes Puces à ADN générant des expressions de gènes Simulations générant de téraoctets de données ….. 4
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
POURQUOI FOUILLER LES DONNÉES ? Les ordinateurs deviennent de moins en moins chers et de plus en plus puissants. La pression de la compétition est de plus en plus forte. Une absence de réaction : une entreprise qui perd 10 % de ses stocks réagit, mais, lorsqu’elle perd 10 % de ses clients au profit de ses concurrents, elle n’est souvent pas capable de le voir ! Une absence de suivi : alors que 87 % des entreprises mentionnent la satisfaction client comme un des points essentiels dans la réussite de l’entreprise, moins de 18 % ont mis en place une méthode de mesure de cette satisfaction ! Fournir de meilleurs services, s’adapter aux besoins des clients CRM.
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
5
POURQUOI FOUILLER LES DONNÉES ?
La gestion de la relation client (GRC<=>CRM) est la capacité à identifier, à acquérir et à fidéliser les meilleurs clients dans l’optique d’augmenter le chiffre d’affaires et les bénéfices. Le terme de gestion de la relation client est devenu le fédérateur de nombreux fournisseurs de solutions informatiques. Des logiciels d’automatisation de la force de vente aux outils de data mining, de centres d’appels ou de géomarketing, tout le monde fait de la gestion de la relation client ou du capital client. Il est évident que le discours marketing arrive à donner un côté neuf à des préoccupations anciennes et constantes des entreprises.
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
6
CALCULE DE STOCKAGE DES DONNÉES
1 byte = 8 bits 1 kilobyte (K/KB) = 2 ^ 10 bytes = 1,024 bytes 1 megabyte (M/MB) = 2 ^ 20 bytes = 1,048,576 bytes 1 gigabyte (G/GB) = 2 ^ 30 bytes = 1,073,741,824 bytes 1 terabyte (T/TB) = 2 ^ 40 bytes = 1,099,511,627,776 bytes 1 petabyte (P/PB) = 2 ^ 50 bytes = 1,125,899,906,842,624 bytes 1 exabyte (E/EB) = 2 ^ 60 bytes = 1,152,921,504,606,846,976 bytes 1 zettabyte (Z/ZB) =1 000 000 000 000 000 000 000 bytes 1 yottabyte (Y/YB) =1 000 000 000 000 000 000 000 000 bytes 7
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
POURQUOI FOUILLER LES DONNÉES ? Les techniques traditionnelles ne sont plus adaptées Volume de données trop grands (trop de tuple, trop d’attributs)
« Comment explorer des millions d’enregistrements avec des milliers d’attributs ? »
Besoins de répondre rapidement aux opportunités Requêtes traditionnelles (SQL) impossibles
« Rechercher tous les enregistrements indiquant une fraude »
Croyance dans la présence de données importantes
8
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
RÉSULTAT Clients et leurs comportements
Croissance dramatique des données
DATA RICH but INFORMATION POOR
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
9
DONNÉE VS INFORMATION « Une donnée décrit des exemples ou des événements précis, elle peut être recueillie de manière automatique ou par écrit, son exactitude peut être vérifiée par référence au monde réel » Ex: le détail des achats d’un client tels qu’ils apparaissent sur son ticket de caisse illustre ce concept de donnée. « une information décrit une catégorie abstraite, chaque catégorie peut couvrir plusieurs exemples, des expert sont nécessaire pour recueillir et formaliser cette information » Ex: l’interprétation des données relatives à un client peut conduire à le classer comme bon ou client à risque; ces deux qualités illustrent ce concept de catégorie abstraite. 10
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
DATAWAREHOUSE
Le data warehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision
Désigne une BD utilisée pour collecter et stocker de manière définitive des informations volatiles provenant d'autres bases de données.
Chaque information collectée se voit affecter une date, ou un numéro de version.
les informations des différentes bases de données d'une entreprise sont collectées dans un seul entrepôt de données.
On dit que le datawarehouse est orienté « métier »
Le datawarehouse est conçu pour contenir les données en adéquation avec les besoins actuels et futurs de l’organisation, et répondre de manière centralisée à tous les besoins des utilisateurs 11 en terme d’information d’aide à la décision.
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
OLTP VS DATAWAREHOUSE OLTP
DW
Orienté transaction
Orienté analyse
Orienté application
Orienté sujet
Données courantes
Données historisées
Données détaillées
Données agrégées
Données évolutives
Données statiques
Utilisateurs nombreux
Utilisateurs peu nombreux
Temps d’exécution : court
Temps d’exécution : long 12
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
DATAWAREHOUSE : CONCEPTS présentées selon différents axes d'analyse ou « dimensions » (par exemple : le temps, les types ou segments de clientèle, les différentes gammes de produits, les différents secteurs régionaux ou commerciaux, etc.). non volatiles : stables, en lecture seule, non modifiables. intégrées en provenance de sources hétérogènes ou d'origines diverses archivées et donc datées
13
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
DATAMART Le DataMart est un ensemble de données ciblées, organisées, regroupées et agrégées pour répondre à un besoin spécifique à un métier ou un domaine donné. Un DataMart (littéralement en anglais magasin de données) est un sous-ensemble d’un Datawarehouse utiliser via des logiciels d’interrogation de bases de données (notamment des outils de reporting) afin de renseigner ses utilisateurs sur l’état de l’entreprise à un moment donné (stock) ou sur son activité (flux).
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
14
PLACE DU DATAMART
DB décisionnelle
Datamart commercial
Gestion de stock
Datamart RH
CRM
Etc…
Etc…
Outils de gestion de la production 15
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
ARCHITECTURE GÉNÉRALE
E X T R A C T I O N
Transformation
Nettoyage Normalisation
C H A R G E M E N T
DATA WAREHOUSE
Requêtes (OLAP)
Rapports (BI) Data Mart
Datamining
Sources de données
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
16
MODÉLISATION DW Nouvelle méthode de conception autour des concepts métiers. Introduction de nouveaux types de table: Table de faits Table de dimensions Introduction de nouveaux modèles Modèle en étoile Modèle en flocon
17
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
TABLE DE FAIT Table principale du modèle dimensionnel Contient les données observables (les faits) sur le sujet étudié selon divers axes d’analyse (dimension)
Table de faits des ventes Clé étrangères
Clé date (CE)
vers les
Clé produit (CE)
dimensions
Clé magasin (CE) Quantité vendue
FAITS
Coût Montant des ventes
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
18
TABLE DE DIMENSION Axe d’analyse selon lequel vont être étudiées les données observables (faits) Contient le détail sur les faits
Dimension produit Clé produit (CP) Code produit Description de produit Groupe de produit Marque Emballage Poids 19
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
ALIMENTATION DU DW Un data warehouse est mis à jour réguliérement Besoin d’un outils permettant d’automatiser les chargements des données dans le DW.
ETL => Extract, Transform, Load Permet de découvrir, analyser et extraire les données à partir e sources hétérogènes. Permet de nettoyer et standardiser les données. Permet de charger les données dans un DW.
20
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
21
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
ARCHITECTURE : INTRODUCTION
Il ya un éventail d'opinions en ce qui concerne l'architecture optimale des entrepôts de données. tout le monde sera d'accord à ceci: une architecture des d'entrepôt de données varient considérablement. Certaines architectures place de lourd accent sur le schéma en étoile, tandis que d'autres l'utilise dans une capacité limitée. Les principes de conception dimensionnelle sont les mêmes, partout où ils sont mis à utiliser. Ce chapitre est concerné par ces principes. cependant, avec la diversité des architectures, vient une confusion. Les mêmes termes sont utilisés pour décrire des choses différentes. Différents termes sont utilisés pour décrire la même chose.
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
OBJECTIF
Trois catégories d’approche. Les deux premiers sont souvent appelés architectures d’entrepôt de données , et sont étroitement associés à Bill Inmon et Ralph Kimball, respectivement. Le troisième n'a pas une figure de proue bien connus. Bien que ces architectures diffèrent de façon fondamentale, il ya une place pour le schéma en étoile dans chacun d'eux. «Quel la meilleures architecture d'entrepôt de données?. les objectifs de ce chapitre sont simples: 1.Comprendre l'approche à un niveau élevé de détail 2.Comprendre la place du schéma en étoile dans chaque architecture. 3.Eliminer certaines idées fausses
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
FEUILLE DE ROUTE Chaque mise en œuvre dans le monde réel est différente. Vous devriez faire un effort pour comprendre les solutions de rechange. Cela vous donnera une meilleure idée de ce qui est et sur ce n'est pas vrai sur la conception dimensionnelle.
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
APPROCHE 1 : INFORMATION
CORPORATE FACTORY
... Si je devais concevoir un entrepôt de données de demain, je ne serais pas envisager d'utiliser une autre approche. Bien que ce n'est pas une surprise pour les gens qui suivent l'approche Inmon à l'entreposage de données, ces paroles ne cessent jamais d'étonner les adeptes d'autres approches. Inmon est un écrivain prolifique et un contributeur à l'entreposage de données communautaires. Grâce à des centaines d'articles et des dizaines de livres, il a développé et partagé une approche à l'entreposage de données qu'il appelle la Information Corporate Factory .
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
APPROCHE 2 :ARCHITECTURE KIMBALL
Ralph Kimball a apporté de nombreuses contributions importantes dans le monde de l'entreposage de données, et ses deux meilleurs contributions à la fois liées à la conception tridimensionnelle. Tout d'abord, dans les années 1990, il a été en grande partie responsable pour avoir popularisé la conception avec le schéma en étoile. Par ses écrits, Kimball a synthétisé et systématisé une série de techniques qui avaient été en usage dès les années 1960. Il a expliqué comment la conception dimensionnelle fournies une manière compréhensible et puissante pour développer des bases de données analytiques. Deuxièmement, Kimball a développé une architecture pour les entrepôts de données, fondée sur le concept de la conception tridimensionnelle.
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
Avantages du modèle Dimensionnel • Conçu pour un requêteur : performances; • Peut être modifié sans peine (faits nouveaux, dimensions nouvelles ,attributs dimensionnels nouveaux, granularité variable); • Doit être capable d’intégrer de nouvelles sources. 29
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
Cube de données
Dans un modèle dimensionnel, on cherche à représenter les données dans un cube (ou hypercube). • analyse ascendante : « synthétiser » • analyse descendante : « détailler »
30
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
Planification • Construction de l’ED datamart par datamart, pour éviter une trop grande complexité • Eviter les « tuyaux de poêle » • élaborer un « bus décisionnel » grâce aux dimensions conformes
31
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
Dimension conforme • Une table de dimension en relation avec plusieurs tables de fait est dite conforme • Cohérence des interfaces utilisateurs et des contenus • Cohérence de l’interprétation des attributs
Grande importance dans la conception
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
32
Exemple de l’agence de voyage 1 - voyages aériens Quel est le chiffre d’affaires (CA) par client, par date de voyage (et par mois, trimestre et année), par compagnie aérienne, par ville de destination ? Les tableaux de bord doivent pouvoir présenter les totaux et sous totaux de CA : tous clients confondus, et/ou toutes dates, et/ou toutes compagnies, et/ou toutes destinations. 33
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
Exemple de l’agence de voyage
Dim_Temp
Dim_CompAer
Dim_Client
Fact_AV cc, ca, cv, ct, Prix
Dim_Ville
34
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
Exemple de l’agence de voyage 2 – location de voiture Dans le cas de la location de voiture, on souhaite éditer le CA, le nombre de jours de location, et le kilométrage pour chaque : client, date de réservation, ville, loueur, et catégorie de véhicule, ainsi que toutes les sommations de la même manière que pour les déplacements. 35
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
Exemple de l’agence de voyage Schéma dimensionnel Dimension client
Dimension ville
Code client Loueur Ville de location Date de location Dimension Prix payé Dimension loueur Date Distance parcourue 36
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
Exemple de l’agence de voyage 3 - hôtel Dans le cas de l’hôtellerie, on veut des tableaux de bord par client, hôtel, ville, date de début de séjour, faisant apparaître le nombre de nuitées et le prix total payé .
37
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
Exemple de l’agence de voyage Schéma dimensionnel Dimension client Code client Hôtelier Ville de séjour Date de début Nombre de nuitées Dimension Prixpayé Hôtelier
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
Dimension ville
Dimension Date
38
Exemple de l’agence de voyage Regroupement On veut maintenant regrouper ces trois ED en un seul, afin de répondre aux questions supplémentaires suivantes : Quel est le CA total induit par un déplacement en avion ? Quelle est la durée du séjour ? Quel est le CA en location de voiture ? En hôtellerie ? On veut pouvoir éditer les détails de CA par période de temps et par client, ville, compagnie aérienne, loueur et hôtelier, et faire tous les regroupements utiles. Figurer le modèle dimensionnel d’un tel ED, en montrant en particulier comment l’on peut retrouver location de voiture et/ou hôtellerie, si elles existent, à partir d’un déplacement en avion. Un voyage en avion n’implique pas forcément location 39 de voiture et/ou hôtellerie, et inversement.
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
Niveau de détail • On privilégie le niveau le plus fin Evolutivité Puissance Efficacité du Data mining
40
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
Floconnage • Définition : dimension dont les champs à faible cardinalité sont dans des tables séparées, reliées à la table d’origine au moyen de clés artificielles. • Non recommandé complexité
:
performances,
• Gain en espace disque non déterminant 41
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
LES DIMENSIONS CONFORMES
L'entrepôt de données dimensionnel n'est pas nécessairement centralisées dans une base de données unique. La notion de conformité est utilisé pour assurer la capacité du data warehouse. provenant de fournisseurs différents. Le terme ETL sera utilisé au sens large, se référant à une activité qui déplace les données d'une base de données à un autre. De même, des outils et des applications qui accèdent aux données analytiques, y compris outils emballés de business intelligence, outils de reporting, et les applications analytiques, seront regroupés sous le terme d'outils de business intelligence.
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
KDD – DATA MINING Gregory Piatetsky-Shapiro et Christopher J. Matheus ‘Data Mining, or Knowledge Discovery in Databases (KDD) as it is also known, is the nontrivial extraction of implicit, previously unknown, and potentially useful information from data’. Arno Siebes ‘Data mining is the search for relationships and global patterns that exist in large databases but are ‘hidden’ among the vast amount of data, such as a relationship between patient data and their medical diagnosis’. 43
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
OUTILS DU DATA MINING
IBM DB2
INFORMIX-On Line XPS
ORACLE 9i, 10g et 11g.
Clementine SPSS.
Intelligent Miner.
SYBASE Sys.
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
44
EMERGENCE ECD :DOMAINES D’APPLICATIONS Banque : Identifier les clients fidèles. Prédire les clients qui peuvent changer leur affiliation de carte de crédit. Prédire si un client remboursera sont prés ou non Vente & Marketing Identifier les habitudes d’achat des clients Prédire la réponse au mail des compagnes de COM Constitution des rayonnages Assurance analyse des risques (caractérisation des clients à hauts risques, etc.) automatisation du traitement des demandes
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
45
EMERGENCE KDD :DOMAINES D’APPLICATIONS
46
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
TYPES D’APPRENTISSAGE Apprentissage simple => SQL Ex : la somme totale des ventes d’un produits en 2008.
Apprentissage multidimensionnel => OLAP Ex: le produit le plus vendu, dans le pays P, la région R, le département D, en mois 12, dans les 5 derniers années.
Apprentissage cacher => DATA MINING Ex: le produit qui sera le mieux vendu en mois 12, dans le pays P, la région R, le département D.
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
47
PRÉ-PROCESSUS Avant de s’engager dans un processus de data mining, il faut exposer le problème et définir les objectifs, le résultat attendu ainsi que les moyens permettent de mesurer le succès. Il s’agit de comprendre le contexte de la recherche et recueillir les intuitions et les connaissances des experts afin d’orienter le processus. 1- formulation du problème 2- définir la typologie du problème 3- définir les résultats 48
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
PRÉ-PROCESSUS Formulation du problème: Cette étape consiste à formuler le problème sous une forme qui peut être traitée avec les outils de modélisation. Est-ce qu’il s’agit d’un problème de détection de fraude, diagnostic de pannes… Découper le problème complexe on sous problème de complexité moindre, et à collecter les données en relation avec chaque sous partie. Définir la typologie du problème: Vise à comprendre un phénomène précis et identifiable, c-à-d est ce que c’est un problème d’affectation ou structuration. Définir les résultats définir les attentent, les individus qui utilisent les résultat et les décision à prendre. 49
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
PROCESSUS DU DATA MINING
50
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
RECHERCHE ET SÉLECTION DES DONNÉES Il s’agit de déterminer la structure générale des données, identifier les données exploitables et vérifier la qualité et la facilité d’accès. 1- investigation : définir les attributs les plus aptes à décrire la problème 2- Etudier l’exhaustivité des données ou bien un échantillon. le niveau de précision, le budget alloué et la puissance des outils.
51
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
NETTOYAGE DES DONNÉES Corriger et/ou contourner les inexactitudes ou les erreurs qui sont glissées dans les données, imposent une phase de nettoyage. En générale c’est le problème des valeurs aberrantes, manquantes et nulle.
52
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
ENRICHISSEMENT DES DONNÉES C’est la phase responsable d’ajout d’autre attributs , soit à partir des sources externes, ou le calcul d’autre attributs pour trouver l’attribut manquant.
53
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
EXEMPLE DU PROCESSUS
transformation des données
Données finales Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
54
LES TECHNIQUES DU DATAMINING il existe plusieurs méthodes permettent l’élaboration d’un concept datamining, ces méthodes implique l’utilisation d’algorithmes spécifiques. Les méthodes datamining peuvent être divisées en deux grandes familles DESCRIPTIVE
vs
PREDECTIVE
55
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
MÉTHODES DESCRIPTIVES Ces méthodes visent à mettre en évidence des informations présentes mais cachées par le volume des données, On parle de la classification non supervisée « eng: Clustering » recherche des groupes « clusters » dans un ensemble de données avec la plus grande similarité possible intragroupe et la plus grande dissimilarité possible intergroupe. Ex : c’est le cas de segmentation de la clientèle et de recherche d’association des produits sur les tickets de caisse.
56
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
MÉTHODES DESCRIPTIVES Le clustering admet deux types de méthodes : méthode non hiérarchique « par partitionnement » elle regroupe en K groupes ‘classes’ toutes les observations simultanément « algorithme k-means » Méthode hiérarchique procède séquentiellement à regrouper les observation les plus semblable comme premier pas « algorithme d’agglomération », ou le résultat est représenté sous forme d’une structure arborescente que l’on appelle dendrogramme
57
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
MÉTHODES PRÉDICTIVE Elles visent à extrapoler de nouvelles informations à partir des informations existantes c’est le cas du SCORING, on parle ici du classement ou bien classification supervisée. Classement : utilise des algorithmes disponibles dans l’ensemble des environnements de fouille de données, produisons des graphes avec des règles qui sont interprétable facilement par les utilisateurs.
58
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)