COURS :
ENTREPÔTS DE DONNÉES
Auditoire : 3ème année LSI -ADBD
Responsable du cours : Inès ZOUARI TURKI
[email protected] Année universitaire : 2022 - 2023
Plan du cours
Chapitre I : Contexte et définitions
Chapitre II : Construction d’un entrepôt de données
Chapitre III : Analyse multidimensionnelle (OLAP)
2
Chapitre I :
CONTEXTE ET DÉFINITIONS
3
Contexte
Système d’information
Le système d'information est un ensemble organisé de
ressources (personnel, matériel, logiciel) permettant de
collecter, de stocker, de traiter et de communiquer des
informations de toutes formes dans une organisation
Principales fonctions d’un SI
Saisie : saisie des données faisant partie du SI pour qu’elles aient une existence réelle
Mémorisation : permet de retrouver les données ultérieurement (Persistance)
Traitement : permet d’accéder aux données, les mettre à jour et les mettre en forme
Communication : permet la communication entre le SI et son environnement
4
Contexte
Système d’information
Modèle systémique des organisations [Gouarné 1997]
Le SI est le système de couplage entre le système opérant et le système de
pilotage. C’est le véhicule de la communication dans l’entreprise
5
Contexte
Système d’information
Les SI traditionnels sont des systèmes opérationnels :
ils sont créés pour répondre aux besoins de traitements de
transactions en ligne (OLTP) et le traitement en batch
ils sont conçus pour les tâches répétitives et planifiées
(transactions fréquentes : Ecriture, Lecture)
ils garantissent la cohérence des données
Exemples :
calculer les quantités produites d’un produit
calculer le prix de revient moyen
calculer le coût de traitement d’une commande
6
Contexte
Besoin de SI décisionnel – Business Intelligence
Une entreprise dispose de données provenant soit de son système
opérationnel soit de l’extérieur :
L’entreprise actuelle croule sous les données
Surabondance de données : cette surabondance
a comme effet direct un rejet par saturation
Les données peuvent avoir, en plus d’une utilisation opérationnelle,
une utilisation stratégique
Les données représentent une mine d’informations dont l’entreprise
doit tirer profit
L’entreprise a besoin d’informations pertinentes pour faire face à :
des clients de plus en plus exigeants (il faut anticiper leurs nouveaux besoins)
une concurrence de plus en plus forte (mondialisation, ouverture des marchés)
7
Contexte
Besoin de SI décisionnel – Business Intelligence
But recherché :
Améliorer les performances décisionnelles de
l'entreprise en répondant aux demandes d’analyse des
décideurs non informaticiens et non statisticiens
Exemples :
Analyse clientèle :
Qui sont mes clients ? Pourquoi sont ils mes clients ?
Comment les conserver ou les faire revenir ?
Marketing, actions commerciales :
Quels sont les produits à succès ?
Où placer ces produits dans les rayons du magasin ?
Télécommunications :
Classification des clients, détection des pannes, détection des fraudes.
8
L’entreprise ne doit pas avoir seulement une vue verticale de ses métiers mais aussi une vue transversale
Contexte
Besoin de SI décisionnel – Business Intelligence
Problème : Les données d’analyse existent dans des BD
de production (SI opérationnel) Mais :
sont éparpillées, disparates, mal organisées et trop détaillées …
Focalisées sur l’amélioration du quotidien
ne correspondent pas au « langage métier » du décideur
=> Se prêtent mal à l’analyse
L’entreprise ne doit pas avoir
une vue seulement verticale de
ses métiers mais aussi une vue
transversale
9
Contexte
Besoin de SI décisionnel – Business Intelligence
Solution : Système d’information décisionnel
Intermédiaire entre les données de base et le décideur
Utilise les données du SI opérationnel et dispose en plus de ses
propres informations
permet de mesurer, analyser, évaluer, prévoir
Fournit un accès aisé aux informations via des outils spécialisés :
Outils OLAP, Reporting, Data mining
Données Information Décision
10
Contexte
Historique des Systèmes décisionnels
Infocentre (début des années 80) - époque des mainframes
Une copie des données de production est enregistrée sur des serveurs
distincts afin d’avoir une vue d’ensemble des activités passées et des
informations utiles pour la prise de décision
Une copie souvent partielle et mise à jour périodiquement pas de
historisation
EIS : Exécutive Information System (né en même temps que les PC)
Outil de restitution permettant d’organiser et de mettre en forme les
données afin de construire des tableaux de bord (analysés par les dirigeants)
Tableau permanent visualisant les indicateurs clés de l’entreprise
Visualiser quelques indicateurs - Mécaniques complexes d’agrégation et de calcul
11
Contexte
Historique des Systèmes décisionnels
Entrepôt de données (début des années 90)
Évolution intelligente des infocentres
Mettre en place un ED dédié au stockage des données décisionnelles
on y verse une copie historisée des données issues des différentes applications de
l’entreprise ainsi que des données issues de l’exterieur
Des outils informatiques, appelés ETL (Extract, Transform and Load) permettent
cette collecte
Exploité à travers des applications de type OLAP, reporting, data mining
Business intelligence et Big Data (début du XXIème siècle)
Puissance des ordinateurs et des softwares traitement des données en temps réel
Grande
Montée en puissance d’interfaces ergonomiques, l’explosion du web
révolution
Le défi est de contrôler l’augmentation exponentielle de data et leur grande diversité
Un défi qui dépasse les compétences humaines mais pas celles du traitement des big
data par le machine learning
Grâce à des super algorithmes, l’analyse des données non structurées produit
aujourd’hui des modèles prédictifs (data mining) pouvant couvrir tout le spectre de
l’activité d’une entreprise
12
Entrepôt de données (ED)
Définition
D’après Bill Inmon [Inmon 94] :
« Un entrepôt de données est une collection de données
orientées sujet, intégrées, non volatiles et historisées,
organisées pour le support d’un processus d’aide à la
décision. »
13
Entrepôt de données
Définition
Orientées sujet (thématiques) : Intégrées :
les informations sont assemblées par thème. Les données alimentant l’ED proviennent de
Grâce à cette orientation sujet, l’entreprise multiples applications hétérogènes : BD
pourra développer son système décisionnel relationnelles, fichiers plats, etc.
d’une manière incrémentale (sujet par sujet) Ces données doivent être converties,
reformatées et nettoyées, de façon à avoir une
seule vision globale dans l’ED.
Non volatiles : Historisées :
Afin de conserver la traçabilité des informations L'historisation est nécessaire pour suivre dans
et des décisions prises, les informations stockées le temps l'évolution des différentes valeurs des
au sein de l’entrepôt de données ne peuvent être indicateurs à analyser.
supprimées. Chaque nouvelle insertion de données ne
détruit pas les anciennes valeurs, mais créée une
nouvelle occurrence de la donnée.
14
Entrepôt de données
Caractéristiques d’un ED
Entrepôt de données BD traditionnelle
Données Orientées activité (thème, sujet), Orientées application, détaillées,
intégrées, agrégées précises au moment de l’accès
- Structuration Multidimensionnelle Relationnelle
Forte dénormalisation, redondance Normalisation respectée, pas de
redondance
- Historisation L’axe temporel est fondamental généralement peu présente
- Usage Utilisées de façon aléatoire (ad-hoc) répétée - opérations journalières
- Accès - Utilisées uniquement en consultation Consultation, suppression, modification
- MAJ réservées uniquement à l’admin. MAJ destructives
MAJ incrémentales
Unité de travail Requête complexe Transaction simple
Temps de réponse quelques dizaines de secondes à instantané
quelques minutes
Taille 100 GB – TR (téraoctet) 100 MB - GB
Utilisateurs - décideurs - Employés
- Pas nombreux - Nombreux et concurrents
15
Entrepôt de données
Architecture décisionnelle
16
Entrepôt de données
Architecture décisionnelle
Sources de données : Données sources utilisées pour
alimenter l’ED. Ces données regroupent :
données de production
informations internes ou information externes , quel que soit leur mode
de stockage
les données commerciales, les données du système comptable, les
données sur le personnel, des informations sur la concurrence, des
informations externes produites par divers organismes nationaux ou
internationaux, etc.
17
Entrepôt de données
Architecture décisionnelle
ETL : Extract - Transform - Load
Les outils ETL sont utilisés pour extraire les données à partir des
sources, les nettoyer, les transformer et les charger dans l’ED
Extraction : réplication des données à travers une procédure de sélection à
partir d’une ou plusieurs sources de données. Les programmes extracteurs
doivent travailler de façon native avec les SGBD des sources.
utilisation d’une méta-base qui va documenter les règles utilisées pour
déterminer quelles données ont été extraites des systèmes sources.
Transformation : suite d’opérations permettant de rendre les données
cibles homogènes transformer revient tout d’abord à nettoyer les données en
les filtrant pour éliminer les faits contenant des valeurs manquantes, des valeurs
nulles et des valeurs redondantes ; puis à intégrer et restructurer les données en
supprimant les incohérences sémantiques entre les sources de données.
Chargement : charger les données nettoyées et préparées dans l’ED.
Il faut mettre en place des stratégies pour assurer de bonnes conditions à sa
réalisation et définir la politique de rafraîchissement.
18
Entrepôt de données
Architecture décisionnelle
Entrepôt de données (Data Warehouse)
C’est le lieu de stockage centralisé et extrait des sources. Il intègre et
«historise » l’ensemble des données utiles pour les prises de décisions. Son
organisation doit faciliter la gestion des données et la conservation des
évolutions.
Magasin de données (Data Mart)
Chaque magasin est un extrait de l’entrepôt. Les données extraites sont
adaptées à un groupe de décideurs ou à un usage particulier
Un magasin ne contient que les données d’un métier de l’entreprise alors
que l’ED contient toutes les données décisionnelles de l'entreprise pour
tous les métiers
Exemple : le magasin « Marketing » contient toutes les informations
nécessaires au service marketing
19
Entrepôt de données
Architecture décisionnelle
Méta-données
Ce sont les données sur les données. Elles décrivent :
les données entreposées, leur format, leur signification
Les processus d’extraction des données à partir des sources
La date du dernier chargement de l’entrepôt
L’historique des données sources et de celles de l’entrepôt
20
Entrepôt de données
Architecture décisionnelle
On Line Analytical Processing (OLAP)
C’est une catégorie d'applications et de technologies permettant de collecter,
stocker, traiter et restituer des données multidimensionnelles à des fins
d'analyse
Outils de visualisation - Restitution
C'est l'élément le plus important pour l'utilisateur car il correspond à la partie
visible du système. Quelles que soient les solutions retenues, elles doivent être
simples à utiliser et compréhensibles par les décideurs non informaticiens.
La restitution peut intervenir avec des modalités différentes :
Outils de requêtes
Outils de data mining
21
Annexe
22