0% ont trouvé ce document utile (0 vote)
50 vues84 pages

BI Part1

to know more about PB

Transféré par

Chaimae Rbib
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
50 vues84 pages

BI Part1

to know more about PB

Transféré par

Chaimae Rbib
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
Vous êtes sur la page 1/ 84

SYSTÈMES D’AIDE À LA DÉCISION

MSEI 2023-2024
PLAN
 Introduction
 Les entrepôts de données

 Les datamart

 Architecture

 Modélisation

 Alimentation

 Les base de données multidimensionnelles

 Le marché du décisionnel

2
INFORMATIQUE DE PRODUCTION
 Données opérationnelles (de production)

• Activité constante composée de modifications et


d'interrogations fréquentes des bases de données par
de nombreux utilisateurs : ajouter une commande,
modifier une adresse de livraison, rechercher les
coordonnées d'un client, etc.
• L'intégrité des données est nécessaire pour ce genre
d'applications (il faut par exemple, interdire la
modification simultanée d'une même donnée par
deux utilisateurs différents).
• La cohérence assurée par les systèmes de production
est toute relative. Elle se contrôle au niveau de la
transaction élémentaire mais pas au niveau global et
3
des activités de l'organisation.
INFORMATIQUE DE PRODUCTION
 Données opérationnelles (de production)

• Basée sur Les systèmes transactionnels temps réel,


OLTP (On-line Transaction Processing) garantissent
l'intégrité des données.
• Les utilisateurs accèdent aux données de la base par de
très courtes transactions atomiques et isolées.
• La priorité est donnée en premier lieu à
l'enregistrement rapide, sûr et efficace des données.
• L'un des formalismes les plus utilisés pour la
représentation conceptuelle des systèmes d'information
est le modèle Entite-Association
4
SYSTÈMES DÉCISIONNELS
 Définition : Informatique décisionnelle (Decision
support system):
 les moyens, les outils et les méthodes qui permettent
de collecter, consolider, modéliser et restituer les
données, matérielles ou immatérielles, d'une
entreprise en vue d'offrir une aide à la décision et de
permettre aux responsables de la stratégie
d'entreprise d’avoir une vue d’ensemble de l’activité
traitée.

5
CARACTÉRISTIQUES DES SYSTÈMES
DÉCISIONNELS
 Possibilité de poser une grande variété de questions
au système, certaines prévisibles et planifiées comme
des tableaux de bord et d'autres imprévisibles.

 Permettre à l'utilisateur d'effectuer les requêtes qu'il


souhaite, par lui-même, sans l'intervention de
programmeur.

 Il sera souvent nécessaire de filtrer, d'agréger, de


compter, sommer et de réaliser des statistique
(moyenne, écrat-type, ….)

6
CARACTÉRISTIQUES DES SYSTÈMES
DÉCISIONNELS
 La structure logique doit être prévue pour rendre
aussi efficace que possible toutes ces requêtes. Pour y
parvenir, il est nécessaire d'introduire de la
redondance dans les informations Stockées en
mémorisant des calculs intermédiaires. On rompt
donc avec le principe de non redondance des bases de
production.
 La cohérence requise doit être interprétable par
l'utilisateur.
 Les systèmes d'informatique décisionnelle doivent
donc assurer plutôt une cohérence globale des
données. Pour ce faire, leur alimentation doit être
une opération réfléchie et planifiée dans le temps.
7
CARACTÉRISTIQUES DES SYSTÈMES
DÉCISIONNELS
 Les transferts de données du système opérationnel
Vers le système décisionnel seront réguliers avec une
périodicité bien choisie dépendante de l'activité de
l'entreprise. Chaque transfert sera contrôlé avant
d'être diffusé.
 Aucune information n'y est jamais modifiée. On
mémorise toutes les données sur une période
déterminée, les données ne seront jamais remises à
jour car toutes les vérifications utiles à la cohérence
globale sont procédées lors de l'alimentation.
 L'utilisation se résume donc à un chargement
périodique, puis à des interrogations non régulières,
non prévisibles, parfois longues à exécuter.
8
FONCTIONS ESSENTIELLES DE
L’INFORMATIQUE DÉCISIONNELLE

 Tout système d'information décisionnel (SID)


telle que le sont les datawarehouses assurent
quatre fonctions fondamentales, à savoir la
 collecte,
 L’intégration,
 La diffusion et
 La présentation des données.
 A ces quatre fonctions s’ajoute une fonction de
contrôle du SID lui-même, l’administration.

9
FONCTIONS ESSENTIELLES DE
L’INFORMATIQUE DÉCISIONNELLE

10
FONCTIONS ESSENTIELLES DE
L’INFORMATIQUE DÉCISIONNELLE

 La collecte
 La collecte des données (parfois appelée data
pumping) est l'ensemble des tâches consistant à
détecter, à sélectionner, à extraire et à filtrer les
données brutes issues des environnements pertinents
compte tenu du périmètre du SID.
 Les sources de données internes et/ou externes étant
souvent hétérogènes tant sur le plan technique que
sur le plan sémantique (données complexes)
 cette fonction est la plus délicate à mettre en place
dans un système décisionnel complexe, car un
excédent de données, un défaut de fiabilité ou un trop
mauvais rapport signal/bruit sont pires que l'absence 11
de données.
FONCTIONS ESSENTIELLES DE
L’INFORMATIQUE DÉCISIONNELLE

 Elle s'appuie notamment sur des outils d'ETL (extract-


transform-load pour extraction-transformation
chargement).Les sources de données internes et/ou
externes étant souvent hétérogènes tant sur le plan
technique que sur le plan sémantique (données
complexes)
 La fonction de collecte joue également, au besoin, un
rôle de recodage. Une donnée représentée différemment
d'une source à une autre impose le choix d'une
représentation unique pour les futures analyses.

12
FONCTIONS ESSENTIELLES DE
L’INFORMATIQUE DÉCISIONNELLE

 L’intégration
 L’intégration des données, c'est-à-dire leur
regroupement en un ensemble technique, logique et
sémantique homogène approprié aux besoins de
l'organisation ; elle consiste à concentrer les données
collectées dans un espace unifié, dont le socle
informatique essentiel est l'entrepôt de données.
Élément central du dispositif, il permet aux
applications décisionnelles de bénéficier d'une source
d'information commune, homogène, normalisée et
fiable, susceptible de masquer la diversité de l'origine
des données.
13
FONCTIONS ESSENTIELLES DE
L’INFORMATIQUE DÉCISIONNELLE

 La diffusion
 La diffusion, ou la distribution d'informations
élaborées à partir des données dans des contextes
appropriés aux besoins des individus ou des groupes
de travail utilisateurs. c'est-à-dire elle met les
données à la disposition des utilisateurs, selon des
schémas correspondant au profil ou au métier de
chacun, sachant que l'accès direct à l'entrepôt de
données ne correspondrait généralement pas aux
besoins d'un décideur ou d'un analyste.

14
FONCTIONS ESSENTIELLES DE
L’INFORMATIQUE DÉCISIONNELLE

 La présentation
 Cette quatrième fonction, la plus visible pour
l'utilisateur, régit les conditions d'accès de
l'utilisateur aux informations. Elle assure le
fonctionnement du poste de travail, le contrôle
d'accès, la prise en charge des requêtes, la
visualisation des résultats sous une forme ou une
autre. Elle utilise toutes les techniques de
communication possibles (outils bureautiques,
requêteurs et générateurs d'états spécialisés,
infrastructure web, télécommunications mobiles,
etc.).
15
FONCTIONS ESSENTIELLES DE
L’INFORMATIQUE DÉCISIONNELLE

 L’administration
 L’administration, qui gère le dictionnaire de
données et le processus d'alimentation de bout en
bout, car le système d’information décisionnelle doit
être lui-même piloté. C'est la fonction transversale
qui supervise la bonne exécution de toutes les autres.
Elle pilote le processus de mise à jour des données, la
documentation sur les données (les méta données), la
sécurité, les sauvegardes, la gestion des incidents.

16
FONCTIONS ESSENTIELLES DE
L’INFORMATIQUE DÉCISIONNELLE

 Remarque
 En pratique, les fonctions de collecte et d'intégration
sont étroitement liées entre elles, et sont
généralement associées au datawarehouse.
 De même, diffusion et présentation sont des fonctions
fortement "orientées sujet", tournées vers l'utilisateur
et son métier, manipulant des contenus à forte valeur
ajoutée informationnelle et non des données brutes;
elles sont donc fortement imbriquées logiquement et
techniquement

17
CONTEXTE
 Besoin: prise de décisions stratégiques et politiques
 Pourquoi: besoin de réactivité face à la concurrence

 Qui : les décideurs (non informaticiens)

 Comment: en répondant aux demandes d’analyse

Qui sont mes Où placer ce


meilleurs clients? produit dans
les rayons?

Quelle catégorie
A combien
de clients
s’élèvent mes
achètent un
ventes
types de
journalières? 18
produits?
LES DONNÉES UTILISABLES PAR LES
DÉCIDEURS

 Données opérationnelles (de production)


 Base de données (Oracle, SQL Server)
 Fichiers,…
 Paye, Gestion des RH, gestion des commandes…
 Caractéristiques de ces données
 Distribuées: systèmes éparpillés
 Hétérogènes: systèmes et structures de données différents
 Détaillées: organisation des données selon les processus
fonctionnels, données surabondantes pour l’analyse
 Peu/pas adaptées à l’analyse: les requêtes lourdes
peuvent bloquer le système transactionnel
 Volatiles: pas d’historisation systématiques 19
PROBLÉMATIQUE
 Comment répondre aux demandes des décideurs?
 En donnant un accès rapide et simple à l’information
stratégique.

Mettre en place un système d’information


dédié aux applications décisionnelles:

Un data warehouse
20
LE PROCESSUS DE PRISE DE DÉCISION

Champs d’application des


systèmes décisionnels

Rassembler Analyser Etablir des


Définir le problème Décider
les données les données solutions

Temps de prise d’une décision

21
LE PROCESSUS DE PRISE DE DÉCISION

22
DOMAINES D’UTILISATION DES DW
 Banque
 Risques d’un prêt, prime plus précise
 Santé
 Épidémiologie
 Risque alimentaire
 Commerce
 Ciblage de clientèle
 Déterminer des promotions
 Logistique
 Adéquation demande/production
 Assurance
Risque lié à un contrat d’assurance (voiture) 23
….
QUELQUES MÉTIERS DU DÉCISIONNEL
 Strategic Performance Management
 Déterminer et contrôler les indicateurs clé de la performance de
l’entreprise.
 Finance Intelligence
 Planifier, analyser et diffuser l’information financière. Mesurer et gérer
les risques
 Human Capital Management (gestion de la relation avec les
employés)
 Aligner les stratégies RH, les processus et les technologies.
 Customer Relationship Management (gestion de la relation
client)
 Améliorer la connaissance client, identifier et prévoir la rentabilité
client, accroitre l’efficacité du marketing client
 Supplier Relationship Management (gestion de la relation
fournisseur)
 Classifier et évaluer l’ensemble des fournisseurs. Planifier et piloter la
24
stratégie Achat.
PLAN
 Introduction
 Les entrepôts de données

 Les datamart

 Architecture

 Modélisation

 Alimentation

 Les base de données multidimensionnelles

 Le marché du décisionnel

25
DÉFINITION
 W.H Inmon (1996)
« Le data Warehouse est une collection de
données orientées sujet, intégrées, non volatiles
et historisées, organisées pour le support d’un
processus d’aide à la décision »

 Principe: mettre en place une base de


données utilisée à des fins d’analyse

26
LES 5 CARACTÉRISTIQUES DES DATA
WAREHOUSE

 5 caractéristiques des DW

 Orientées sujet
 Données intégrées
 Données non volatiles
 Données datées ou archivées historisées
 Données multidimensionnelles

27
LES 5 CARACTÉRISTIQUES DES DATA
WAREHOUSE

 Données orientées sujet (métiers ou business)

 Regroupe les informations des différents


métiers
 Ne tiens pas compte de l’organisation
fonctionnelle des données

Ass. Vie Ass. Auto Ass. Santé

Client
Police
28
LES 5 CARACTÉRISTIQUES DES DATA
WAREHOUSE

 L’objectif d’un datawarehouse est la prise de décisions


autour des activités majeures de l’entreprise.
 Dans un datawarehouse, les données sont ainsi
structurées par thèmes par opposition à celles
organisées, dans les systèmes de production, par
processus fonctionnel.
 L’intérêt de cette organisation est de disposer de
l’ensemble des informations utiles sur un sujet le plus
souvent transversal aux structures fonctionnelles et
organisationnelles de l’entreprise.

29
LES 5 CARACTÉRISTIQUES DES DATA
WAREHOUSE

 Données intégrées
 Normalisation des données
 Définition d’un référentiel unique
h,f

1,0 h,f

homme, femme

GBP
EUR
DH
30

USD
LES 5 CARACTÉRISTIQUES DES DATA
WAREHOUSE

 Les données en provenance de sources hétérogènes ou


d'origines diverses (y compris des fichiers externes de cotation
ou de scoring).
 Il s’agit alors d’intégrer les données en provenance de diverse
sources afin de les homogénéiser et de leur donner un sens
unique, compréhensible par tous les utilisateurs.
 La transversalité recherchée sera d’autant plus efficiente que
le système d’information sera réellement intégré.
 Cette intégration nécessite une forte normalisation, une bonne
gestion des référentiels et de la cohérence, une parfaite
maîtrise de la sémantique et des règles de gestion s’appliquant
aux données manipulées.
 Ce n’est qu’au prix d’une intégration « réussie » que l’on peut
offrir une vision homogène et cohérente de l’entreprise via ses 31
indicateurs
LES 5 CARACTÉRISTIQUES DES DATA
WAREHOUSE

 Données non volatiles


 Traçabilité des informations et des décisions
prises
 Copie des données de production
Bases de production Entrepôts de données

Ajout
Suppression

Accès

Modification Chargement
32
LES 5 CARACTÉRISTIQUES DES DATA
WAREHOUSE

 Stables, en lecture seule, non modifiables.


 Afin de conserver la traçabilité des informations et
des décisions prises, les informations stockées au
sein du Datawarehouse ne doivent pas disparaître.
 Une même requête lancée plusieurs fois, et ce à des
mois d’intervalle, sur une même population doit
restituer les mêmes résultats.

33
LES 5 CARACTÉRISTIQUES DES DATA
WAREHOUSE

 Données datées ou archivées historisées


 Les données persistent dans le temps
 Mise en place d’un référentiel temps
Image de la base en Mai 2005 Image de la base en Juillet 2006
Calendrier Répertoire
Base de
Nom Ville Nom Ville
production
Youssef Casablanca Youssef Marrakech

Hassan Rabat Hassan Rabat

Répertoire
Entrepôt de Répertoire
données Code Nom Ville
Code Année Mois
1 Youssef Casablanca
1 2005 Mai 34
1 Hassan Rabat
2 2006 Juillet
2 Youssef Marrakech
LES 5 CARACTÉRISTIQUES DES DATA
WAREHOUSE

 Avec une conservation de l'historique et de son


évolution pour permettre les analyses comparatives
(par exemple, d'une année sur l'autre, etc.).
 La non-volatilité permet l’historisation. D’un point
de vue fonctionnel, cette propriété permet de suivre
dans le temps l’évolution des différentes valeurs des
indicateurs à analyser.
 De fait, dans un Datawarehouse un référentiel de
temps est nécessaire. C’est l’axe temps ou période
35
LES 5 CARACTÉRISTIQUES DES DATA
WAREHOUSE

 Données multidimensionnelles
 présentées selon différents axes d'analyse ou «
dimensions » (par exemple : le temps, les types ou
segments de clientèle, les différentes gammes de
produits, les différents secteurs régionaux ou
commerciaux, etc.).
 Le Datawarehouse est conçu pour contenir les données
en adéquation avec les besoins actuels et futurs de
l’organisation, et répondre de manière centralisée à tous
les utilisateurs.

36
SGBD ET DW
Service Service Service
OLTP: On-Line commercial Financier livraison
Transactional
BD prod BD prod BD prod
Processing
Clientèle

H
I
Data Warehouse S
T
OLAP: On-Line O
Analytical R
Processing Clientèle I
Q
U 37
E
OLTP VS DW

OLTP DW
Orienté transaction Orienté analyse
Orienté application Orienté sujet
Données courantes Données historisées
Données détaillées Données agrégées
Données évolutives Données statiques
Utilisateurs nombreux, Utilisateurs peu nombreux,
administrateurs/opérationnels manager
Temps d’exécution: court Temps d’exécution: long
38
PLAN
 Introduction
 Les entrepôts de données

 Les datamart

 Architecture

 Modélisation

 Alimentation

 Les base de données multidimensionnelles

 Le marché du décisionnel

39
DATAMART
 Sous-ensemble d’un entrepôt de données
 Destiné à répondre aux besoins d’un secteur ou d’une
fonction particulière de l’entreprise
 Point de vue spécifique selon des critères métiers

Datamarts du
service
Marketing

Datamart du
40
DW de service Ressources
l’entreprise Humaines
INTÉRÊT DES DATAMART
 Nouvel environnement structuré et formaté en fonction
des besoins d’un métier ou d’un usage particulier
 Moins de données que DW
 Plus facile à comprendre, à manipuler
 Amélioration des temps de réponse
 Utilisateurs plus ciblés: DM plus facile à définir

41
PLAN
 Introduction
 Les entrepôts de données

 Les datamarts

 Architecture

 Modélisation

 Alimentation

 Les base de données multidimensionnelles

 Le marché du décisionnel

42
ARCHITECTURE GÉNÉRALE
Zone de
Zone de préparation Zone de stockage présentation

E
C
X
H
T
A
R
Transformations: R Data Requêtes
A
Nettoyage G warehouse Rapports
C
Standardisation E Visualisation
T
… M Data Mining
I
E …
O
N
N
T
Sources de Datamart
données

43
LES FLUX DE DONNÉES
 Flux entrant
 Extraction: multi-source, hétérogène
 Transformation: filtrer, trier, homogénéiser, nettoyer
 Chargement: insertion des données dans l’entrepôt
 Flux sortant
 Mise à disposition des données pour les utilisateurs finaux

44
LES DIFFÉRENTES ZONES DE
L’ARCHITECTURE
 Zone de préparation (Staging area)
 Zone temporaire de stockage des données extraites
 Réalisation des transformations avant l’insertion dans le
DW:
 Nettoyage
 Normalisation…
 Données souvent détruites après chargement dans le DW
 Zone de stockage (DW, DM)
 On y transfère les données nettoyées
 Stockage permanent des données
 Zone de présentation
 Donne accès aux données contenues dans le DW
 Peut contenir des outils d’analyse programmés:
 Rapports
 Requêtes…

45
1- ARCHITECTURE À DEUX NIVEAUX

One,
company-
wide
warehouse

46
LES DIFFÉRENTES ZONES DE
L’ARCHITECTURE

 Dans cette architecture nous retrouvons :


 Le staging area : Le staging area est temporaire il sert à stocker
les données extraites (E) des systèmes sources. C'est dans le
staging area que l'on effectue les différentes transformations (T)
à savoir : Le nettoyage des données, le merge, la standardisation,
le déduplication... des données. Les données dans le staging area
sont détruites une fois le chargement des data marts terminé en
succès.
 Le Datawarehouse : Les données du staging area sont transférées
vers le datawarehouse (L). Il est important de noter que le méta
data est aussi stocké dans le datawarehouse. Le datawarehouse
est centrale et devrait contenir toutes les données de l'entreprise.
 La zone présentation : Une fois les données chargées dans le
datawarehouse, les utilisateurs peuvent y accéder pour exécuter
leurs requêtes Ad hoc, programmer les rapports, analyser et 47
visualiser l'information
2- LES DATAMARTS INDÉPENDANTES

Separate ETL for each Data access complexity


independent data mart due to multiple data marts 48
2- LES DATAMARTS INDÉPENDANTES
 Danscette architecture nous retrouvons :
L'architecture prônée par Kimball:
 Le staging area : Le staging area est temporaire il sert à stocker
les données extraites (E) des systèmes sources. C'est dans le
staging area que l'on effectue les différentes transformations (T)
à savoir : Le nettoyage des données, le merge, la standardisation,
le déduplication... des données. Les données dans le staging area
sont détruites une fois le chargement des data marts terminé en
succès..
 Les data marts indépendants : Les données du staging area sont
transférées vers le datamart concerné (L). Il est important de
noter que le méta data est aussi stocké dans le datamart. Les
data marts sont indépendants ce qui veut dire qu'il n'existe
aucune intégration (Communication) entre ces derniers.
 La zone présentation : Une fois les données chargées dans les
Data marts, les utilisateurs peuvent y accéder pour exécuter
leurs requêtes Ad hoc, programmer les rapports, analyser et 49
visualiser l'information en provenance des data marts, analyser
et visualiser l'information
2- LES DATAMARTS INDÉPENDANTES
 Avantages:
 permet de répondre rapidement à des besoins extrêmement
urgents dans des départements où la gestion est décentralisée
 utile lorsque le budget alloué pour le déploiement de
l'architecture ne permet pas la construction d'un système
global intégré
 permet de voir des résultats à court terme
 permet de justifier la poursuite des développements plus
globaux
 nécessite des coûts moindres en termes d’équipements et
autres ressources à court terme
 peut être utilisée lorsque la gestion des données est déjà
décentralisée et que les données gérées sont propres à chacun
des groupes de l’organisation 50
2- LES DATAMARTS INDÉPENDANTES
 Inconvénients:
 peut entraîner des problèmes d’évolutivité vers une
architecture plus robuste
 doit faire partie d’un processus global pour être réussi
 des problèmes de redondance et d’inconsistances sont
possibles

51
3- DATAMARTS DÉPENDANTS AVEC ODS

52
3- DATAMARTS DÉPENDANTS AVEC ODS
 Dans cette architecture nous retrouvons :
L'architecture prônée par Bill Inmon :
 L'ODS : L'ODS est l'acronyme pour Operational Data Store ou
Magasin de données opérationnelles. Il joue deux rôles : Le rôle
du staging area qui sert à stocker les données extraites (E) des
systèmes sources. On y effectue aussi les différentes
transformations (T) à savoir : Le nettoyage des données, le merge,
la standardisation, la déduplication... des données.
 Par contre les données dans l'ODS ne sont détruites qu'après la
durée de vie des opérations qui est un facteur définit par
l'organisation et dépend de plusieurs critères.
 Le deuxième rôle d'un ODS et c'est surtout sa raison d'être c'est
d'intégrer les données sources dans le but de présenter toute
l'information nécessaire à prendre des décisions tactiques 53
3- DATAMARTS DÉPENDANTS AVEC ODS
 Dans cette architecture nous retrouvons :
L'architecture prônée par Bill Inmon :
 L'Entreprise Datawarehouse : Les données de l'ODS sont
transférées vers le datawarehouse (L). Le Datawarehouse est
centrale, c'est d'ailleurs la raison de l'appellation Entreprise
Datawarehouse (EDW), et devrait contenir toutes les données de
l'entreprise.
 Les data marts dépendants : Ces data marts peuvent être
alimentés soit de L'EDW soit de l'ODS. Ces data marts sont
dépendants.
 La zone présentation : Une fois les données chargées dans le Data
warehouse et les data marts dépendants, les utilisateurs peuvent
y accéder pour exécuter leurs requêtes Ad hoc, programmer les
rapports, analyser et visualiser l'information... 54
3- DATAMARTS DÉPENDANTS AVEC ODS
 Dans cette architecture nous retrouvons :
L'architecture prônée par Bill Inmon :
 L'Entreprise Datawarehouse : Les données de l'ODS sont
transférées vers le datawarehouse (L). Le Datawarehouse est
centrale, c'est d'ailleurs la raison de l'appellation Entreprise
Datawarehouse (EDW), et devrait être contenir toutes les
données de l'entreprise.
 Les data marts dépendants : Ces data marts peuvent être
alimentés soit de L'EDW soit de l'ODS. Ces data marts sont
dépendants.
 La zone présentation : Une fois les données chargées dans le Data
warehouse et les data marts dépendants, les utilisateurs peuvent
y accéder pour exécuter leurs requêtes Ad hoc, programmer les
rapports, analyser et visualiser l'information... 55
3- DATAMARTS DÉPENDANTS AVEC ODS
 Avantages:
 définition des données intégrée et très consistante
 fonctionne habituellement bien lorsque la gestion des données
est déjà centralisée à un certain niveau.
 Inconvénients:
 demande des efforts très importants de planification, d’analyse
et de conception au début du projet
 coût de réalisation significatif
 présente des délais avant que l’implantation finale puisse être
fonctionnelle
 retour d’investissement et bénéfices visibles seulement à long
terme
 demande une bonne coordination entre les différents groupes
de l’organisation et les consensus peuvent être à difficiles 56
obtenir
3- DATAMARTS LOGIQUES AVEC DATA
WAREHOUSE ACTIF

57
• Les datamarts ne sont pas des bases de données séparées mais
des vues logiques des datawarehouses.
4- CONSTRUCTION D’UN DW

58
PLAN
 Introduction
 Les entrepôts de données

 Les datamarts

 Architecture

 Modélisation

 Alimentation

 Les base de données multidimensionnelles

 Le marché du décisionnel

59
MODÉLISATION ENTITÉ/ASSOCIATION
 Avantages:
 Normalisation:
 Éliminer les redondances
 Préserver la cohérence des données
 Optimisation des transactions
 Réduction de l’espace de stockage
 Inconvénients pour un utilisateur final:
 Schéma très/trop complet:
 Contient des tables/champs inutiles pour
l’analyse
 Pas d’interface graphique capable de rendre utilisable le
modèle E/A 60
 Inadapté pour l’analyse
EXEMPLE
Transporteur
Mode
d’expédition

Produit
Contrat Commande
client
Groupe de
Type de
produits
contrat Client
Magasin

Famille de
Employé Région de produits
Stock ventes

61
Fonction Division de
Fournisseurs
ventes
MODÉLISATION DES DW
 Nouvelle méthode de conception autour des concepts
métiers
 Ne pas normaliser au maximum
 Introduction de nouveaux types de table:
 Table de faits
 Table de dimensions
 Introduction de nouveaux modèles:
 Modèle en étoile
 Modèle en flocon

62
TABLE DE FAITS
 Table principale du modèle dimensionnel
 Contient les données observables (les faits) sur le sujet
étudié selon divers axes d’analyse (les dimensions)

Table de faits des ventes


Clés étrangères Clé date (CE)
vers les Clé produit (CE)
dimensions Clé magasin (CE)
Quantité vendue
Faits Coût
Montant des ventes 63

63
TABLE DE FAITS (SUITE)
 Fait:
 Ce que l’on souhaite mesurer
 Quantités vendues, montant des ventes…
 Contient les clés étrangères des axes d’analyse (dimension)
 Date, produit, magasin
 Trois types de faits:
 Additif
 Semi additif

 Non additif

64
TYPOLOGIE DES FAITS
 Additif: additionnable suivant toutes les dimensions
 Quantités vendues, chiffre d’affaire
 Peut être le résultat d’un calcul:
 Bénéfice = montant vente - coût
 Semi additif: additionnable suivant certaines
dimensions
 Solde d’un compte bancaire:
 Pas de sens d’additionner sur les dates car cela représente des
instantanés d’un niveau
 Σ sur les comptes: on connaît ce que nous possédons en banque

 Non additif: fait non additionnable quelque soit la


dimension
 Prix unitaire: l’addition sur n’importe quelle dimension
donne un nombre dépourvu de sens
65
GRANULARITÉ DE LA TABLE DE FAITS
 Répondre à la question :
 Que représente un enregistrement de la table de faits?
 La granularité définit le niveau de détails de la table de
faits:
 Exemple: une ligne de commande par produit, par client et
par jour

- Précision des analyses


+ Finesse
Taille de l’entrepôt 66
TABLE DE DIMENSION
 Axe d’analyse selon lequel vont être étudiées les données
observables (faits)
 Contient le détail sur les faits

Dimension produit
Clé de Clé produit (CP)
substitution Code produit
Description du produit
Attributs de Famille du produits
la dimension Marque
Emballage 67
Poids 67
TABLE DE DIMENSION (SUITE)
 Dimension = axe d’analyse
 Client, produit, période de temps…
 Contient souvent un grand nombre de colonnes
 L’ensemble des informations descriptives des faits
 Contient en général beaucoup moins d’enregistrements
qu’une table de faits

68
LA DIMENSION TEMPS
 Commune à l’ensemble du Dimension Temps
DW Clé temps (CP)
 Reliée à toute table de Jour
faits Mois
Trimestre
Semestre
Année
Num_jour_dans_année
Num_semaine_ds_année

69

69
GRANULARITÉ D’UNE DIMENSION
 Une dimension contient des membres organisés en
hiérarchie :
 Chacun des membres appartient à un niveau
hiérarchique (ou niveau de granularité) particulier
 Granularité d’une dimension : nombre de niveaux
hiérarchiques
 Temps :
 année – semestre – trimestre - mois

70
ÉVOLUTION DES DIMENSIONS
 Dimensions à évolution lente
 Dimensions à évolution rapide

71
ÉVOLUTION DES DIMENSIONS
 Dimensions à évolution lente
 Un client peut se marier, avoir des enfants…
 Un produit peut changer de noms ou de formulation:
 « Raider » en « Twix »
 « yaourt à la vanille » en « yaourt saveur vanille »

 Gestion de la situation, 3 solutions:


Écrasement de l’ancienne valeur

 Versionnement

 Valeur d’origine / valeur courante

 Dimensions à évolution rapide


72
DIMENSIONS À ÉVOLUTION LENTE
(1/3)
 Écrasement de l’ancienne valeur :
 Correction des informations erronées
 Avantage:
 Facile à mettre en œuvre
 Inconvénients:
 Perte de la trace des valeurs antérieures des attributs
 Perte de la cause de l’évolution dans les faits mesurés

Clé produit Description du produit Groupe de produits


12345 Intelli-Kids Logiciel

Jeux éducatifs 73
DIMENSIONS À ÉVOLUTION LENTE
(2/3)
 Ajout d’un nouvel enregistrement:
 Utilisation d’une clé de substitution
 Avantages:
 Permet de suivre l’évolution des attributs
 Permet de segmenter la table de faits en fonction de
l’historique
 Inconvénient:
 Accroit le volume de la table

Clé produit Description du produit Groupe de produits


12345 Intelli-Kids Logiciel
74
25963 Intelli-Kids Jeux éducatifs
DIMENSIONS À ÉVOLUTION LENTE (3/3)
 Ajout d’un nouvel attribut:
 Valeur origine/valeur courante
 Avantages:
 Avoir deux visions simultanées des données :
 Voir les données récentes avec l’ancien attribut
 Voir les données anciennes avec le nouvel attribut

 Voir les données comme si le changement n’avait pas eu lieu


 Inconvénient:
 Inadapté pour suivre plusieurs valeurs d’attributs intermédiaires
Clé produit Description du Groupe de Nouveau groupe de
produit produits produits

12345 Intelli-Kids Logiciel Jeux éducatifs 75

75
ÉVOLUTION DES DIMENSIONS
 Dimensions à évolution lente
 Dimensions à évolution rapide
 Subit des changements très fréquents (tous les mois) dont on
veut préserver l’historique
 Solution: isoler les attributs qui changent rapidement

76
DIMENSIONS À ÉVOLUTION RAPIDE
 Changements fréquents des attributs dont on veut
garder l’historique
 Clients pour une compagnie d’assurance
 Isoler les attributs qui évoluent vite

77

77
DIMENSIONS À ÉVOLUTION RAPIDE (SUITE)
Dim client
Dim client Faits Clé_client
Faits
Clé_client Clé_client Nom
Nom … Prénom Clé_client
Prénom Adresse Clé_démog
Adresse Date_naissance
Date_nais …

Dim_démographique
Revenus
Clé_démog
Niveau_étude
Revenus
Nb_enfants
Niveau_étude
Statut_marital
Nb_enfants
Profil_financier
Statut_marital
Profil_achat 78
Profil_financier
Profil_achat
LES TYPES DE MODÈLES

Modèle en étoile Modèle en flocon 79


MODÈLE EN ÉTOILE
 Une table de fait centrale et des dimensions
 Les dimensions n’ont pas de liaison entre elles

 Avantages:
 Facilité de navigation
 Nombre de jointures limité
 Inconvénients:
 Redondance dans les dimensions
 Toutes les dimensions ne concernent pas les mesures

80
MODÈLE EN ÉTOILE
Dimension Temps
ID temps
année
mois
jour Dimension produit
… ID produit
Dimension Magasin
ID magasin nom
description code
Table de faits Achat prix
ville
ID client poids
surface
ID temps groupe

ID magasin famille
ID région …
ID produit
Quantité achetée
Dimension Region Dimension Client
Montant des achats
ID région ID client
pays nom
description prénom
district vente adresse 81
…. …
MODÈLE EN FLOCON
 Une table de fait et des dimensions décomposées en sous
hiérarchies
 On a un seul niveau hiérarchique dans une table de
dimension
 La table de dimension de niveau hiérarchique le plus bas
est reliée à la table de fait. On dit qu’elle a la granularité
la plus fine
 Avantages:
 Normalisation des dimensions
 Économie d’espace disque
 Inconvénients:
 Modèle plus complexe (jointure)
 Requêtes moins performantes 82
Dimension produit
MODÈLE EN FLOCON ID produit
Dimension Temps ID groupe
ID temps nom
annee code
mois prix
Dimension Magasin jour poids Dimension groupe
ID magasin … … ID groupe
description ID famille
ville Table de faits Achat nom
surface ID client …
… ID temps
ID magasin
Dimension Region ID région
ID région Dimension Famille
ID produit
ID division vente ID famille
Quantité achetée
pays nom
Montant des achats
description …
….
Dimension Client
Dimension
ID client
Division vente
nom 83
ID division vente
prénom
description
adresse
….

MÉTHODOLOGIE: 9 ÉTAPES DE KIMBALL
1. Choisir le sujet
2. Choisir la granularité des faits
3. Identifier et adapter les dimensions
4. Choisir les faits
5. Stocker les pré-calculs
6. Établir les tables de dimensions
7. Choisir la durée de la base
8. Suivre les dimensions lentement évolutives
9. Décider des requêtes prioritaires, des modes de requêtes

84

Vous aimerez peut-être aussi