BI Part1
BI Part1
MSEI 2023-2024
PLAN
Introduction
Les entrepôts de données
Les datamart
Architecture
Modélisation
Alimentation
Le marché du décisionnel
2
INFORMATIQUE DE PRODUCTION
Données opérationnelles (de production)
5
CARACTÉRISTIQUES DES SYSTÈMES
DÉCISIONNELS
Possibilité de poser une grande variété de questions
au système, certaines prévisibles et planifiées comme
des tableaux de bord et d'autres imprévisibles.
6
CARACTÉRISTIQUES DES SYSTÈMES
DÉCISIONNELS
La structure logique doit être prévue pour rendre
aussi efficace que possible toutes ces requêtes. Pour y
parvenir, il est nécessaire d'introduire de la
redondance dans les informations Stockées en
mémorisant des calculs intermédiaires. On rompt
donc avec le principe de non redondance des bases de
production.
La cohérence requise doit être interprétable par
l'utilisateur.
Les systèmes d'informatique décisionnelle doivent
donc assurer plutôt une cohérence globale des
données. Pour ce faire, leur alimentation doit être
une opération réfléchie et planifiée dans le temps.
7
CARACTÉRISTIQUES DES SYSTÈMES
DÉCISIONNELS
Les transferts de données du système opérationnel
Vers le système décisionnel seront réguliers avec une
périodicité bien choisie dépendante de l'activité de
l'entreprise. Chaque transfert sera contrôlé avant
d'être diffusé.
Aucune information n'y est jamais modifiée. On
mémorise toutes les données sur une période
déterminée, les données ne seront jamais remises à
jour car toutes les vérifications utiles à la cohérence
globale sont procédées lors de l'alimentation.
L'utilisation se résume donc à un chargement
périodique, puis à des interrogations non régulières,
non prévisibles, parfois longues à exécuter.
8
FONCTIONS ESSENTIELLES DE
L’INFORMATIQUE DÉCISIONNELLE
9
FONCTIONS ESSENTIELLES DE
L’INFORMATIQUE DÉCISIONNELLE
10
FONCTIONS ESSENTIELLES DE
L’INFORMATIQUE DÉCISIONNELLE
La collecte
La collecte des données (parfois appelée data
pumping) est l'ensemble des tâches consistant à
détecter, à sélectionner, à extraire et à filtrer les
données brutes issues des environnements pertinents
compte tenu du périmètre du SID.
Les sources de données internes et/ou externes étant
souvent hétérogènes tant sur le plan technique que
sur le plan sémantique (données complexes)
cette fonction est la plus délicate à mettre en place
dans un système décisionnel complexe, car un
excédent de données, un défaut de fiabilité ou un trop
mauvais rapport signal/bruit sont pires que l'absence 11
de données.
FONCTIONS ESSENTIELLES DE
L’INFORMATIQUE DÉCISIONNELLE
12
FONCTIONS ESSENTIELLES DE
L’INFORMATIQUE DÉCISIONNELLE
L’intégration
L’intégration des données, c'est-à-dire leur
regroupement en un ensemble technique, logique et
sémantique homogène approprié aux besoins de
l'organisation ; elle consiste à concentrer les données
collectées dans un espace unifié, dont le socle
informatique essentiel est l'entrepôt de données.
Élément central du dispositif, il permet aux
applications décisionnelles de bénéficier d'une source
d'information commune, homogène, normalisée et
fiable, susceptible de masquer la diversité de l'origine
des données.
13
FONCTIONS ESSENTIELLES DE
L’INFORMATIQUE DÉCISIONNELLE
La diffusion
La diffusion, ou la distribution d'informations
élaborées à partir des données dans des contextes
appropriés aux besoins des individus ou des groupes
de travail utilisateurs. c'est-à-dire elle met les
données à la disposition des utilisateurs, selon des
schémas correspondant au profil ou au métier de
chacun, sachant que l'accès direct à l'entrepôt de
données ne correspondrait généralement pas aux
besoins d'un décideur ou d'un analyste.
14
FONCTIONS ESSENTIELLES DE
L’INFORMATIQUE DÉCISIONNELLE
La présentation
Cette quatrième fonction, la plus visible pour
l'utilisateur, régit les conditions d'accès de
l'utilisateur aux informations. Elle assure le
fonctionnement du poste de travail, le contrôle
d'accès, la prise en charge des requêtes, la
visualisation des résultats sous une forme ou une
autre. Elle utilise toutes les techniques de
communication possibles (outils bureautiques,
requêteurs et générateurs d'états spécialisés,
infrastructure web, télécommunications mobiles,
etc.).
15
FONCTIONS ESSENTIELLES DE
L’INFORMATIQUE DÉCISIONNELLE
L’administration
L’administration, qui gère le dictionnaire de
données et le processus d'alimentation de bout en
bout, car le système d’information décisionnelle doit
être lui-même piloté. C'est la fonction transversale
qui supervise la bonne exécution de toutes les autres.
Elle pilote le processus de mise à jour des données, la
documentation sur les données (les méta données), la
sécurité, les sauvegardes, la gestion des incidents.
16
FONCTIONS ESSENTIELLES DE
L’INFORMATIQUE DÉCISIONNELLE
Remarque
En pratique, les fonctions de collecte et d'intégration
sont étroitement liées entre elles, et sont
généralement associées au datawarehouse.
De même, diffusion et présentation sont des fonctions
fortement "orientées sujet", tournées vers l'utilisateur
et son métier, manipulant des contenus à forte valeur
ajoutée informationnelle et non des données brutes;
elles sont donc fortement imbriquées logiquement et
techniquement
17
CONTEXTE
Besoin: prise de décisions stratégiques et politiques
Pourquoi: besoin de réactivité face à la concurrence
Quelle catégorie
A combien
de clients
s’élèvent mes
achètent un
ventes
types de
journalières? 18
produits?
LES DONNÉES UTILISABLES PAR LES
DÉCIDEURS
Un data warehouse
20
LE PROCESSUS DE PRISE DE DÉCISION
21
LE PROCESSUS DE PRISE DE DÉCISION
22
DOMAINES D’UTILISATION DES DW
Banque
Risques d’un prêt, prime plus précise
Santé
Épidémiologie
Risque alimentaire
Commerce
Ciblage de clientèle
Déterminer des promotions
Logistique
Adéquation demande/production
Assurance
Risque lié à un contrat d’assurance (voiture) 23
….
QUELQUES MÉTIERS DU DÉCISIONNEL
Strategic Performance Management
Déterminer et contrôler les indicateurs clé de la performance de
l’entreprise.
Finance Intelligence
Planifier, analyser et diffuser l’information financière. Mesurer et gérer
les risques
Human Capital Management (gestion de la relation avec les
employés)
Aligner les stratégies RH, les processus et les technologies.
Customer Relationship Management (gestion de la relation
client)
Améliorer la connaissance client, identifier et prévoir la rentabilité
client, accroitre l’efficacité du marketing client
Supplier Relationship Management (gestion de la relation
fournisseur)
Classifier et évaluer l’ensemble des fournisseurs. Planifier et piloter la
24
stratégie Achat.
PLAN
Introduction
Les entrepôts de données
Les datamart
Architecture
Modélisation
Alimentation
Le marché du décisionnel
25
DÉFINITION
W.H Inmon (1996)
« Le data Warehouse est une collection de
données orientées sujet, intégrées, non volatiles
et historisées, organisées pour le support d’un
processus d’aide à la décision »
26
LES 5 CARACTÉRISTIQUES DES DATA
WAREHOUSE
5 caractéristiques des DW
Orientées sujet
Données intégrées
Données non volatiles
Données datées ou archivées historisées
Données multidimensionnelles
27
LES 5 CARACTÉRISTIQUES DES DATA
WAREHOUSE
Client
Police
28
LES 5 CARACTÉRISTIQUES DES DATA
WAREHOUSE
29
LES 5 CARACTÉRISTIQUES DES DATA
WAREHOUSE
Données intégrées
Normalisation des données
Définition d’un référentiel unique
h,f
1,0 h,f
homme, femme
GBP
EUR
DH
30
USD
LES 5 CARACTÉRISTIQUES DES DATA
WAREHOUSE
Ajout
Suppression
Accès
Modification Chargement
32
LES 5 CARACTÉRISTIQUES DES DATA
WAREHOUSE
33
LES 5 CARACTÉRISTIQUES DES DATA
WAREHOUSE
Répertoire
Entrepôt de Répertoire
données Code Nom Ville
Code Année Mois
1 Youssef Casablanca
1 2005 Mai 34
1 Hassan Rabat
2 2006 Juillet
2 Youssef Marrakech
LES 5 CARACTÉRISTIQUES DES DATA
WAREHOUSE
Données multidimensionnelles
présentées selon différents axes d'analyse ou «
dimensions » (par exemple : le temps, les types ou
segments de clientèle, les différentes gammes de
produits, les différents secteurs régionaux ou
commerciaux, etc.).
Le Datawarehouse est conçu pour contenir les données
en adéquation avec les besoins actuels et futurs de
l’organisation, et répondre de manière centralisée à tous
les utilisateurs.
36
SGBD ET DW
Service Service Service
OLTP: On-Line commercial Financier livraison
Transactional
BD prod BD prod BD prod
Processing
Clientèle
H
I
Data Warehouse S
T
OLAP: On-Line O
Analytical R
Processing Clientèle I
Q
U 37
E
OLTP VS DW
OLTP DW
Orienté transaction Orienté analyse
Orienté application Orienté sujet
Données courantes Données historisées
Données détaillées Données agrégées
Données évolutives Données statiques
Utilisateurs nombreux, Utilisateurs peu nombreux,
administrateurs/opérationnels manager
Temps d’exécution: court Temps d’exécution: long
38
PLAN
Introduction
Les entrepôts de données
Les datamart
Architecture
Modélisation
Alimentation
Le marché du décisionnel
39
DATAMART
Sous-ensemble d’un entrepôt de données
Destiné à répondre aux besoins d’un secteur ou d’une
fonction particulière de l’entreprise
Point de vue spécifique selon des critères métiers
Datamarts du
service
Marketing
Datamart du
40
DW de service Ressources
l’entreprise Humaines
INTÉRÊT DES DATAMART
Nouvel environnement structuré et formaté en fonction
des besoins d’un métier ou d’un usage particulier
Moins de données que DW
Plus facile à comprendre, à manipuler
Amélioration des temps de réponse
Utilisateurs plus ciblés: DM plus facile à définir
41
PLAN
Introduction
Les entrepôts de données
Les datamarts
Architecture
Modélisation
Alimentation
Le marché du décisionnel
42
ARCHITECTURE GÉNÉRALE
Zone de
Zone de préparation Zone de stockage présentation
E
C
X
H
T
A
R
Transformations: R Data Requêtes
A
Nettoyage G warehouse Rapports
C
Standardisation E Visualisation
T
… M Data Mining
I
E …
O
N
N
T
Sources de Datamart
données
43
LES FLUX DE DONNÉES
Flux entrant
Extraction: multi-source, hétérogène
Transformation: filtrer, trier, homogénéiser, nettoyer
Chargement: insertion des données dans l’entrepôt
Flux sortant
Mise à disposition des données pour les utilisateurs finaux
44
LES DIFFÉRENTES ZONES DE
L’ARCHITECTURE
Zone de préparation (Staging area)
Zone temporaire de stockage des données extraites
Réalisation des transformations avant l’insertion dans le
DW:
Nettoyage
Normalisation…
Données souvent détruites après chargement dans le DW
Zone de stockage (DW, DM)
On y transfère les données nettoyées
Stockage permanent des données
Zone de présentation
Donne accès aux données contenues dans le DW
Peut contenir des outils d’analyse programmés:
Rapports
Requêtes…
45
1- ARCHITECTURE À DEUX NIVEAUX
One,
company-
wide
warehouse
46
LES DIFFÉRENTES ZONES DE
L’ARCHITECTURE
51
3- DATAMARTS DÉPENDANTS AVEC ODS
52
3- DATAMARTS DÉPENDANTS AVEC ODS
Dans cette architecture nous retrouvons :
L'architecture prônée par Bill Inmon :
L'ODS : L'ODS est l'acronyme pour Operational Data Store ou
Magasin de données opérationnelles. Il joue deux rôles : Le rôle
du staging area qui sert à stocker les données extraites (E) des
systèmes sources. On y effectue aussi les différentes
transformations (T) à savoir : Le nettoyage des données, le merge,
la standardisation, la déduplication... des données.
Par contre les données dans l'ODS ne sont détruites qu'après la
durée de vie des opérations qui est un facteur définit par
l'organisation et dépend de plusieurs critères.
Le deuxième rôle d'un ODS et c'est surtout sa raison d'être c'est
d'intégrer les données sources dans le but de présenter toute
l'information nécessaire à prendre des décisions tactiques 53
3- DATAMARTS DÉPENDANTS AVEC ODS
Dans cette architecture nous retrouvons :
L'architecture prônée par Bill Inmon :
L'Entreprise Datawarehouse : Les données de l'ODS sont
transférées vers le datawarehouse (L). Le Datawarehouse est
centrale, c'est d'ailleurs la raison de l'appellation Entreprise
Datawarehouse (EDW), et devrait contenir toutes les données de
l'entreprise.
Les data marts dépendants : Ces data marts peuvent être
alimentés soit de L'EDW soit de l'ODS. Ces data marts sont
dépendants.
La zone présentation : Une fois les données chargées dans le Data
warehouse et les data marts dépendants, les utilisateurs peuvent
y accéder pour exécuter leurs requêtes Ad hoc, programmer les
rapports, analyser et visualiser l'information... 54
3- DATAMARTS DÉPENDANTS AVEC ODS
Dans cette architecture nous retrouvons :
L'architecture prônée par Bill Inmon :
L'Entreprise Datawarehouse : Les données de l'ODS sont
transférées vers le datawarehouse (L). Le Datawarehouse est
centrale, c'est d'ailleurs la raison de l'appellation Entreprise
Datawarehouse (EDW), et devrait être contenir toutes les
données de l'entreprise.
Les data marts dépendants : Ces data marts peuvent être
alimentés soit de L'EDW soit de l'ODS. Ces data marts sont
dépendants.
La zone présentation : Une fois les données chargées dans le Data
warehouse et les data marts dépendants, les utilisateurs peuvent
y accéder pour exécuter leurs requêtes Ad hoc, programmer les
rapports, analyser et visualiser l'information... 55
3- DATAMARTS DÉPENDANTS AVEC ODS
Avantages:
définition des données intégrée et très consistante
fonctionne habituellement bien lorsque la gestion des données
est déjà centralisée à un certain niveau.
Inconvénients:
demande des efforts très importants de planification, d’analyse
et de conception au début du projet
coût de réalisation significatif
présente des délais avant que l’implantation finale puisse être
fonctionnelle
retour d’investissement et bénéfices visibles seulement à long
terme
demande une bonne coordination entre les différents groupes
de l’organisation et les consensus peuvent être à difficiles 56
obtenir
3- DATAMARTS LOGIQUES AVEC DATA
WAREHOUSE ACTIF
57
• Les datamarts ne sont pas des bases de données séparées mais
des vues logiques des datawarehouses.
4- CONSTRUCTION D’UN DW
58
PLAN
Introduction
Les entrepôts de données
Les datamarts
Architecture
Modélisation
Alimentation
Le marché du décisionnel
59
MODÉLISATION ENTITÉ/ASSOCIATION
Avantages:
Normalisation:
Éliminer les redondances
Préserver la cohérence des données
Optimisation des transactions
Réduction de l’espace de stockage
Inconvénients pour un utilisateur final:
Schéma très/trop complet:
Contient des tables/champs inutiles pour
l’analyse
Pas d’interface graphique capable de rendre utilisable le
modèle E/A 60
Inadapté pour l’analyse
EXEMPLE
Transporteur
Mode
d’expédition
Produit
Contrat Commande
client
Groupe de
Type de
produits
contrat Client
Magasin
Famille de
Employé Région de produits
Stock ventes
61
Fonction Division de
Fournisseurs
ventes
MODÉLISATION DES DW
Nouvelle méthode de conception autour des concepts
métiers
Ne pas normaliser au maximum
Introduction de nouveaux types de table:
Table de faits
Table de dimensions
Introduction de nouveaux modèles:
Modèle en étoile
Modèle en flocon
62
TABLE DE FAITS
Table principale du modèle dimensionnel
Contient les données observables (les faits) sur le sujet
étudié selon divers axes d’analyse (les dimensions)
63
TABLE DE FAITS (SUITE)
Fait:
Ce que l’on souhaite mesurer
Quantités vendues, montant des ventes…
Contient les clés étrangères des axes d’analyse (dimension)
Date, produit, magasin
Trois types de faits:
Additif
Semi additif
Non additif
64
TYPOLOGIE DES FAITS
Additif: additionnable suivant toutes les dimensions
Quantités vendues, chiffre d’affaire
Peut être le résultat d’un calcul:
Bénéfice = montant vente - coût
Semi additif: additionnable suivant certaines
dimensions
Solde d’un compte bancaire:
Pas de sens d’additionner sur les dates car cela représente des
instantanés d’un niveau
Σ sur les comptes: on connaît ce que nous possédons en banque
Dimension produit
Clé de Clé produit (CP)
substitution Code produit
Description du produit
Attributs de Famille du produits
la dimension Marque
Emballage 67
Poids 67
TABLE DE DIMENSION (SUITE)
Dimension = axe d’analyse
Client, produit, période de temps…
Contient souvent un grand nombre de colonnes
L’ensemble des informations descriptives des faits
Contient en général beaucoup moins d’enregistrements
qu’une table de faits
68
LA DIMENSION TEMPS
Commune à l’ensemble du Dimension Temps
DW Clé temps (CP)
Reliée à toute table de Jour
faits Mois
Trimestre
Semestre
Année
Num_jour_dans_année
Num_semaine_ds_année
69
69
GRANULARITÉ D’UNE DIMENSION
Une dimension contient des membres organisés en
hiérarchie :
Chacun des membres appartient à un niveau
hiérarchique (ou niveau de granularité) particulier
Granularité d’une dimension : nombre de niveaux
hiérarchiques
Temps :
année – semestre – trimestre - mois
70
ÉVOLUTION DES DIMENSIONS
Dimensions à évolution lente
Dimensions à évolution rapide
71
ÉVOLUTION DES DIMENSIONS
Dimensions à évolution lente
Un client peut se marier, avoir des enfants…
Un produit peut changer de noms ou de formulation:
« Raider » en « Twix »
« yaourt à la vanille » en « yaourt saveur vanille »
Versionnement
Jeux éducatifs 73
DIMENSIONS À ÉVOLUTION LENTE
(2/3)
Ajout d’un nouvel enregistrement:
Utilisation d’une clé de substitution
Avantages:
Permet de suivre l’évolution des attributs
Permet de segmenter la table de faits en fonction de
l’historique
Inconvénient:
Accroit le volume de la table
75
ÉVOLUTION DES DIMENSIONS
Dimensions à évolution lente
Dimensions à évolution rapide
Subit des changements très fréquents (tous les mois) dont on
veut préserver l’historique
Solution: isoler les attributs qui changent rapidement
76
DIMENSIONS À ÉVOLUTION RAPIDE
Changements fréquents des attributs dont on veut
garder l’historique
Clients pour une compagnie d’assurance
Isoler les attributs qui évoluent vite
77
77
DIMENSIONS À ÉVOLUTION RAPIDE (SUITE)
Dim client
Dim client Faits Clé_client
Faits
Clé_client Clé_client Nom
Nom … Prénom Clé_client
Prénom Adresse Clé_démog
Adresse Date_naissance
Date_nais …
…
Dim_démographique
Revenus
Clé_démog
Niveau_étude
Revenus
Nb_enfants
Niveau_étude
Statut_marital
Nb_enfants
Profil_financier
Statut_marital
Profil_achat 78
Profil_financier
Profil_achat
LES TYPES DE MODÈLES
Avantages:
Facilité de navigation
Nombre de jointures limité
Inconvénients:
Redondance dans les dimensions
Toutes les dimensions ne concernent pas les mesures
80
MODÈLE EN ÉTOILE
Dimension Temps
ID temps
année
mois
jour Dimension produit
… ID produit
Dimension Magasin
ID magasin nom
description code
Table de faits Achat prix
ville
ID client poids
surface
ID temps groupe
…
ID magasin famille
ID région …
ID produit
Quantité achetée
Dimension Region Dimension Client
Montant des achats
ID région ID client
pays nom
description prénom
district vente adresse 81
…. …
MODÈLE EN FLOCON
Une table de fait et des dimensions décomposées en sous
hiérarchies
On a un seul niveau hiérarchique dans une table de
dimension
La table de dimension de niveau hiérarchique le plus bas
est reliée à la table de fait. On dit qu’elle a la granularité
la plus fine
Avantages:
Normalisation des dimensions
Économie d’espace disque
Inconvénients:
Modèle plus complexe (jointure)
Requêtes moins performantes 82
Dimension produit
MODÈLE EN FLOCON ID produit
Dimension Temps ID groupe
ID temps nom
annee code
mois prix
Dimension Magasin jour poids Dimension groupe
ID magasin … … ID groupe
description ID famille
ville Table de faits Achat nom
surface ID client …
… ID temps
ID magasin
Dimension Region ID région
ID région Dimension Famille
ID produit
ID division vente ID famille
Quantité achetée
pays nom
Montant des achats
description …
….
Dimension Client
Dimension
ID client
Division vente
nom 83
ID division vente
prénom
description
adresse
….
…
MÉTHODOLOGIE: 9 ÉTAPES DE KIMBALL
1. Choisir le sujet
2. Choisir la granularité des faits
3. Identifier et adapter les dimensions
4. Choisir les faits
5. Stocker les pré-calculs
6. Établir les tables de dimensions
7. Choisir la durée de la base
8. Suivre les dimensions lentement évolutives
9. Décider des requêtes prioritaires, des modes de requêtes
84