0% ont trouvé ce document utile (0 vote)

724 vues26 pages

Chapitre 1 Introduction Ã La Science Des DonnÃes

Ce document introduit les concepts clés de la science des données, y compris ses définitions, son histoire et ses domaines d'application courants.

Transféré par

eya nafti

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

724 vues26 pages

Chapitre 1 Introduction Ã La Science Des DonnÃes

Ce document introduit les concepts clés de la science des données, y compris ses définitions, son histoire et ses domaines d'application courants.

Transféré par

eya nafti

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Vous êtes sur la page 1/ 26

Data Science Fundamentals

Cours de Mastère (S1) : Intelligent DEcision mAking Strategies (IDEAS)

Chapitre 1 : Introduction à la Science des données
Wahiba Ben Abdessalem
Institut Supérieur de Gestion de Tunis
Data Science Fundamentals

2
Data Science Fundamentals
Introduction à la Science des données
Plan du cours

Objectifs
Ce module est introductif et a pour objectif la familiarisation des étudiants avec les concepts relatifs à la Science des données
et à la compréhension de son utilité à travers des exemples.
Chapitres :
Chapitre 1 : Introduction à la Science des données
Chapitre 2 : Méthodologie de Science des données (processus)
Chapitre 3 : Outils de la Science des données ( langages et algorithmes)
Chapitre 4 : Applications de la Science des données
Chapitre 5 : la Science des données et le Big data
Chapitre 6 : La Visualisation dans la Science des données
Chapitre 7 : Ethiques des Sciences des données

3
Références bibliographiques

- Morand, Elisabeth. "Data science: fondamentaux et études

de cas, Machine learning avec Python et R by Eric Biernat Dietrich, David. "Data Science
and Michel Lutz." Population, English edition 73.2 (2018): & Big Data Analytics." (2015).
386-387.

KELLEHER, JOHN D. "Data science/John D. Laura, Igual, and Seguí Santi. "Introduction to Ozdemir, Sinan. Principles of data science.
Kelleher and Brendan Tierney. Description: Data Science: A Python Approach to Concepts, Packt Publishing Ltd, 2016.
Cambridge, MA: The MIT Press, 2018 Techniques and Applications." (2017). 4
Références bibliographiques

Kotu, Vijay, and Bala Deshpande. Data science: Grus, Joel. Data science par la
concepts and practice. Morgan Kaufmann, 2018.
Wagh, Sanjeev J., Manisha S. Bhende, and pratique: fondamentaux avec Python.
Anuradha D. Thakare. Fundamentals of Data Eyrolles, 2020.
Science. Chapman and Hall/CRC, 2021.

5
Introduction à la Data Science
Qu’est-ce qu’on entend par « Data Science » ?

Data science is a compilation of techniques that extract value from data.

Some of the techniques used in data science have a long history and trace
their roots to applied statistics, machine learning, visualization, logic, and
computer science
(Kotu, Vijay, and Bala Deshpande. Data science: concepts and
practice. Morgan Kaufmann, 2018.)

Data science is commonly defined as a methodology by which actionable

insights can be inferred from data…. Performing data science is a task with
an ambitious objective: the production of beliefs informed by data and to
be used as the basis of decision-making.
Laura, Igual, and Seguí Santi. "Introduction to Data Science:
A Python Approach to Concepts, Techniques and
Applications." (2017). 6
01 Introduction à la Data Science
Qu’est-ce qu’on entend par « Data Science » ?

Définition

« La data science (ou science des données) est un domaine

interdisciplinaire, qui emprunte au business, aux statistiques et à
l’informatique diverses méthodes, processus et algorithmes pour extraire
des informations des données. »

Selon le Bureau of Labor Statistics des États-Unis, les opportunités d'emploi dans
le domaine de la science des données devraient augmenter de 31,4 % entre 2020
et 2030. Les data scientists peuvent également s'attendre à gagner un salaire de
100, 480 USD.
(https://www.bls.gov/emp/tables/fastest-growing-occupations.htm) 7
01 Introduction à la Data Science

Un peu d’histoire…

1er cas concret de machine

learning :un programme 1959
apprend à jouer aux dames
Même si le domaine s’est beaucoup Première apparition de
démocratisé ces 10 dernières
années, la data science est en
1991 l’expression “data science”
(Peter Naur)
réalité beaucoup plus âgée qu’elle Un algorithme de Machine
n’y parait… Learning (Deeper Blue) bat
le champion du monde 1997
d’échecs
Un algorithme de Deep
Learning (AlphaGo) bat le
2016 champion du monde de
Go

8
01 Introduction à la Data Science

Un peu d’histoire…

La data science existe depuis des décennies...

Alors pourquoi ce nouvel élan ?

▪ Explosion de la quantité des données produites et collectées (big data…)
▪ Stockage des données plus économique
▪ Augmentation exponentielle des capacités de calcul des ordinateurs
▪ Amélioration d’accessibilité aux algorithmes

9
Introduction à la Data Science
Qu’est-ce qu’on entend par « Data Science » ?

Lorsqu’on parle de Data Science, on englobe beaucoup de domaines d’application

possibles. Les domaines les plus courants sont :

10
Introduction à la Data Science
AI, MACHINE LEARNING, AND DATA SCIENCE

• L'intelligence artificielle, l'apprentissage automatique et la science des données

sont tous liés les uns aux autres. ils sont souvent confondus les uns avec les
autres dans les médias populaires et la communication commerciale.
• Cependant, ces trois domaines sont distincts selon le contexte :
• L'intelligence artificielle consiste à donner aux machines la capacité d'imiter le
comportement humain, en particulier les fonctions cognitives. Exemples :
reconnaissance faciale, conduite automatisée, tri du courrier en fonction du code
postal. Dans certains cas, les machines ont largement dépassé les capacités
humaines (trier des milliers de courriers postaux en quelques secondes)
• Il existe toute une gamme de techniques relevant de l'intelligence artificielle :
traitement du langage naturel, science de la décision, robotique, planification, etc.

11
Introduction à la Data Science
AI, MACHINE LEARNING, AND DATA SCIENCE

• L'apprentissage est une partie importante de la capacité humaine.

• L'apprentissage automatique peut être considéré comme un sous-domaine
ou l'un des outils de l'intelligence artificielle, il fournit aux machines la
capacité d'apprendre de l'expérience

• L'expérience des machines se présente sous la forme de données.

• Les données utilisées pour enseigner aux machines sont appelées
données de formation (training data).

12
Introduction à la Data Science
AI, MACHINE LEARNING, AND DATA SCIENCE

• L'apprentissage automatique bouleverse le modèle de programmation traditionnel:

• Un programme, un ensemble d'instructions pour un ordinateur, transforme les signaux d'entrée en

signaux de sortie en utilisant des règles et des relations prédéterminées.

• Algorithmes d'apprentissage automatique, également appelés "apprenants", prennent à la fois

l'entrée et la sortie connues (données de formation) pour déterminer un modèle pour le programme
qui convertit l'entrée en sortie.

13
Introduction à la Data Science
AI, MACHINE LEARNING, AND DATA SCIENCE

Comment fonctionne l’apprentissage automatique:

• Par exemple, de nombreuses organisations telles que les plateformes de

médias sociaux, les sites d'évaluation ou les forums sont tenues de
modérer les publications et de supprimer le contenu abusif.
• Comment apprendre aux machines à automatiser la suppression des
contenus abusifs ?

14
Introduction à la Data Science
AI, MACHINE LEARNING, AND DATA SCIENCE

Comment apprendre aux machines à automatiser la suppression des

contenus abusifs ?

• Les machines doivent recevoir des exemples de messages abusifs et non

abusifs avec une indication claire de celui qui est abusif.
• Les apprenants généraliseront un modèle basé sur certains mots ou
séquences de mots afin de conclure si le message global est abusif ou non.
• Le modèle peut prendre la forme d'un ensemble de règles "si - alors".
• Une fois que les règles ou le modèle de science des données sont
développés, les machines peuvent commencer à catégoriser la nature de
tout nouveau message.

15
Introduction à la Data Science
AI, MACHINE LEARNING, AND DATA SCIENCE

• La science des données est l'application métier de l'apprentissage

automatique, de l'intelligence artificielle et d'autres domaines quantitatifs
tels que les statistiques, la visualisation et les mathématiques.
• C'est un domaine interdisciplinaire qui extrait la valeur des données.
• Elle s'appuie fortement sur l'apprentissage automatique et est parfois
appelée exploration de données.
• Des exemples de cas d'utilisation de la science des données sont : les
moteurs de recommandation qui peuvent recommander des films pour un
utilisateur particulier, un modèle d'alerte à la fraude qui détecte les
transactions frauduleuses par carte de crédit, trouver les clients qui vont
très probablement se désabonner le mois prochain ou prédire les revenus
pour le prochain trimestre..
16
Introduction à la Data Science
AI, MACHINE LEARNING, AND DATA SCIENCE

• La science des données commence par des données, qui peuvent aller
d'un simple tableau de quelques observations numériques à une matrice
complexe de millions d'observations avec des milliers de variables. La
science des données utilise certaines méthodes de calcul spécialisées afin
de découvrir des structures significatives et utiles dans un ensemble de
données.
• La discipline de la science des données coexiste et est étroitement
associée à un certain nombre de domaines connexes tels que les systèmes
de bases de données, l'ingénierie des données, la visualisation, l'analyse
des données, et l'intelligence d'affaires (BI).

17
Introduction à la Data Science
AI, MACHINE LEARNING, AND DATA SCIENCE

Nous pouvons définir plus précisément la science des données en étudiant

certaines de ses principales caractéristiques et motivations telles que :

1- Extraction de patterns significatifs

2- Construire des modèles représentatifs
3- Combinaison de statistiques, d'apprentissage automatique et L'informatique
4- Learning Algorithms (Algorithmes d'apprentissage)
5- D’autres champs associés

18
Introduction à la Data Science
Principales caractéristiques et motivations du data science

1- Extraction de patterns significatifs

La science des données implique l'inférence et l'itération de nombreuses
hypothèses différentes. L'un des aspects clés de la science des données est
le processus de généralisation des patterns (motif, patron ou modèles) à
partir d'un ensemble de données.
La généralisation doit être valide, non seulement pour l'ensemble de données
utilisé pour observer le pattern, mais également pour les nouvelles données

- Exemples de pattern de la langue française :

Je suis (adjectif ou nom)
Je suis Tunisien(ne)
Il lit un (document)
Il lit un livre
19
Introduction à la Data Science
Principales caractéristiques et motivations du data science

2- Construire des modèles représentatifs

En statistique, un modèle décrit comment une ou plusieurs variables dans les
données sont liées à d'autres variables.
La modélisation est un processus dans lequel une abstraction représentative
est construite à partir de l'ensemble de données observé.

Exemple 1:

• Humain lit un (document), document = livre, journal, revue….

20
Introduction à la Data Science
Principales caractéristiques et motivations du data science
2- Construire des modèles représentatifs
Exemple 2 :

• En fonction du niveau de revenu et du montant du prêt demandé, un modèle

peut être développé pour déterminer le taux d'intérêt d'un prêt.
• La science des données est le processus de construction d'un modèle
représentatif qui correspond aux données d'observation.
• Un modèle peut être utilisé à la fois pour des applications prédictives et
explicatives :
• D'une part, il prédit la sortie (taux d'intérêt) en fonction de l'ensemble de variables d'entrée
(niveau de revenu et montant du prêt)
• D'autre part, le modèle peut être utilisé pour comprendre la relation entre la variable de
sortie et toutes les variables d'entrée. Par exemple, le niveau de revenu importe-t-il
vraiment pour déterminer le taux d'intérêt d'un prêt ? Que se passe-t-il lorsque les niveaux
de revenu doublent?
21
Introduction à la Data Science
Principales caractéristiques et motivations du data science
3- Combinaison de statistiques, d'apprentissage automatique et L'informatique
• Dans le but d'extraire des informations utiles et pertinentes la science des
données emprunte des techniques de calcul aux disciplines des statistiques, de
l'apprentissage automatique, et des théories des bases de données.
• Les algorithmes utilisés en science des données proviennent de ces disciplines
mais ont depuis évolué (informatique parallèle, informatique évolutive…)
• L'un des ingrédients clés d'une science des données réussie est une
connaissance préalable solide sur les données et les processus métier qui
génèrent les données,

• La science des données fonctionne également généralement sur de grands

ensembles de données qui doivent être stockés, traités et calculés.
• C'est là que les techniques de base de données ainsi que les techniques de
calcul parallèle et distribué jouent un rôle important dans la science des données.
22
Introduction à la Data Science
Principales caractéristiques et motivations du data science
4- Learning Algorithms (Algorithmes d'apprentissage)
• L'application d'algorithmes d'apprentissage sophistiqués pour extraire des
modèles utiles à partir de données différencie la science des données des
techniques traditionnelles d'analyse de données.
• Beaucoup de ces algorithmes ont été développés au cours des dernières
décennies et font partie de l'apprentissage automatique et de l'intelligence
artificielle.
• Certains algorithmes sont basés sur les fondements des théories probabilistes
bayésiennes et de l'analyse de régression, datant d'il y a des centaines d'années.
Ces algorithmes itératifs automatisent le processus de recherche d'une solution
optimale pour un problème de données donné.
• En fonction du problème, la science des données utilise des algorithmes
d'apprentissage spécifiques tels que les arbres de décision, les réseaux de
neurones, les k-plus proches voisins (k-NN) et le clustering k-means, entre autres
23
Introduction à la Data Science
Principales caractéristiques et motivations du data science
5- Champs associés

• Alors que la science des données couvre un large éventail de techniques, d'applications et de
disciplines, il existe quelques domaines associés sur lesquels la science des données s'appuie
fortement :
• Statistiques descriptives : la moyenne de calcul, l'écart type, la corrélation et d'autres statistiques
descriptives permettent de quantifier la structure agrégée d'un ensemble de données.
• Visualisation exploratoire (Exploratory visualization ) : le processus d'expression des données en
coordonnées visuelles permet aux utilisateurs de trouver des modèles et des relations dans les
données et de comprendre de grands ensembles de données.
• Intelligence d'affaires (Business Intelligence) : aide les organisations à utiliser efficacement les
données. Il permet d'interroger les données sans avoir besoin d'écrire la commande de requête
technique,
• Ingénierie des données : c’est le processus de recherche, d'organisation, d'assemblage, de stockage
et de distribution de données pour une analyse et une utilisation efficaces. L'ingénierie de base de
données (par exemple, Apache Hadoop, Spark, Kafka), le calcul parallèle, l'entreposage de données
constituent des techniques d'ingénierie de données.
24
Types de Data Science

25
Types de Data Science
Taches Déscription Algorithmes Exemples

Classification Prédire si un point de données appartient à l'une Decision Trees, Neural -Répartition des électeurs dans les partis politiques (les
des classes prédéfinies. La prédiction sera basée networks, Bayesian models, campagnes d'Obama en 2008 et 2012 et social médias)
sur l'apprentissage à partir d'un ensemble de Induction rules, K nearest -Regroupement de nouveaux clients dans l'un des
données connu. neighbors groupes de clients connus.

Regression Prédire l'étiquette cible numérique d'un point de Linear regression, Logistic Prévision du taux de chômage pour l'année prochaine.
données. La prédiction sera basée sur regression Estimation de la prime d'assurance.
l'apprentissage à partir d'un ensemble de données
connu.

Anomaly detection Prédisez si un point de données est une valeur Distance based, Density based, Détection des transactions frauduleuses dans les cartes
aberrante par rapport aux autres points de LOF de crédit.
données de l'ensemble de données. Détection d'intrusion réseau.

Time series Prédire si la valeur de la variable cible pour la Exponential smoothing, ARIMA, Prévision des ventes, prévision de la production,
période future est basée sur les valeurs regression pratiquement tout phénomène de croissance qui doit
historiques. être traité

Clustering Identifiez les clusters naturels dans l'ensemble de K means, density based Recherche de segments de clientèle dans une
données en fonction des propriétés héritées de clustering - DBSCAN entreprise sur la base des données de transaction, du
l'ensemble de données. Web et des appels des clients.

Association analysis Identifiez les relations au sein d'un ensemble FP Growth, Apriori Trouvez des opportunités de vente croisée pour un
d'éléments en fonction des données de détaillant ou en fonction de l'historique des 26
transaction. transactions d'achat.

Vous aimerez peut-être aussi

QCM1
Pas encore d'évaluation
QCM1
2 pages
Intelligence Artificielle: Pr. Hiba Chougrad Année-Universitaire: 2021-2022
Pas encore d'évaluation
Intelligence Artificielle: Pr. Hiba Chougrad Année-Universitaire: 2021-2022
63 pages
Extraction et Gestion des Connaissances: Actes de la conférence EGC'2019
D'Everand
Extraction et Gestion des Connaissances: Actes de la conférence EGC'2019
Lydia Boudjeloud-Assala
5/5 (1)
CM1 Intro
Pas encore d'évaluation
CM1 Intro
42 pages
TD Machine Learning
100% (2)
TD Machine Learning
3 pages
Cours Intro Hadoop v27022014 Erraki Haddad
Pas encore d'évaluation
Cours Intro Hadoop v27022014 Erraki Haddad
62 pages
Test
Pas encore d'évaluation
Test
8 pages
FinalProblèmes À Satisfaction de Contraintes
100% (1)
FinalProblèmes À Satisfaction de Contraintes
238 pages
TP7 KMeans
Pas encore d'évaluation
TP7 KMeans
4 pages
Intelligence Artificielle: Pr. Hiba Chougrad Année-Universitaire: 2019-2020
Pas encore d'évaluation
Intelligence Artificielle: Pr. Hiba Chougrad Année-Universitaire: 2019-2020
85 pages
Traitement Image 2
Pas encore d'évaluation
Traitement Image 2
74 pages
TD1 ML
Pas encore d'évaluation
TD1 ML
2 pages
Big Data Project
Pas encore d'évaluation
Big Data Project
42 pages
Chapitre 4 Fouille de Données
Pas encore d'évaluation
Chapitre 4 Fouille de Données
30 pages
ML DL-Data Cleaning
100% (1)
ML DL-Data Cleaning
34 pages
Chap3-Ingénierie Des DonnéesFinStudents
Pas encore d'évaluation
Chap3-Ingénierie Des DonnéesFinStudents
30 pages
Cours Perceptron
100% (1)
Cours Perceptron
58 pages
Algorithme Machine Learng
Pas encore d'évaluation
Algorithme Machine Learng
16 pages
Chapitre 3-Apprentissage Non Supervisé
Pas encore d'évaluation
Chapitre 3-Apprentissage Non Supervisé
85 pages
Big Data Et Cloud - Part Exam
100% (1)
Big Data Et Cloud - Part Exam
69 pages
TP 1 - Initiation À La ML
Pas encore d'évaluation
TP 1 - Initiation À La ML
2 pages
Data Mining
100% (1)
Data Mining
49 pages
Cours BD - Chapitres1 - 2
Pas encore d'évaluation
Cours BD - Chapitres1 - 2
67 pages
Ilovepdf Merged
Pas encore d'évaluation
Ilovepdf Merged
254 pages
Introduction Au Big Data
100% (1)
Introduction Au Big Data
17 pages
tp2 IA ML (ML) VxAli
Pas encore d'évaluation
tp2 IA ML (ML) VxAli
7 pages
Examen PP 2021 2022
Pas encore d'évaluation
Examen PP 2021 2022
6 pages
Examen1 (2001)
Pas encore d'évaluation
Examen1 (2001)
3 pages
TP 5 Machine Learning
Pas encore d'évaluation
TP 5 Machine Learning
10 pages
Chapitre 5. Problème de Satisfaction de Contraintes (CSP)
Pas encore d'évaluation
Chapitre 5. Problème de Satisfaction de Contraintes (CSP)
10 pages
Mémoire Corrigé
Pas encore d'évaluation
Mémoire Corrigé
50 pages
Chapitre 5 - Apprentissage Par Renforcement
Pas encore d'évaluation
Chapitre 5 - Apprentissage Par Renforcement
27 pages
Séance 11-Problème À Satisfaction de Contrainte
Pas encore d'évaluation
Séance 11-Problème À Satisfaction de Contrainte
45 pages
Apprentissage Supervisé VS Apprentissage Non Supervisé
Pas encore d'évaluation
Apprentissage Supervisé VS Apprentissage Non Supervisé
6 pages
TP 1
Pas encore d'évaluation
TP 1
6 pages
Ilovepdf Merged
Pas encore d'évaluation
Ilovepdf Merged
99 pages
GI18 - Programmation Par Contraintes
100% (1)
GI18 - Programmation Par Contraintes
159 pages
Cours Pretraitement Des Images
Pas encore d'évaluation
Cours Pretraitement Des Images
96 pages
Chap07 DecisionTrees
Pas encore d'évaluation
Chap07 DecisionTrees
82 pages
ML PR
Pas encore d'évaluation
ML PR
66 pages
2021-2022 TALN CI Corrige
Pas encore d'évaluation
2021-2022 TALN CI Corrige
5 pages
TP Business Intelligence PDF
Pas encore d'évaluation
TP Business Intelligence PDF
8 pages
TD4 Par Contraintes
Pas encore d'évaluation
TD4 Par Contraintes
3 pages
Correction Exam QCM
Pas encore d'évaluation
Correction Exam QCM
16 pages
Règles D'association
Pas encore d'évaluation
Règles D'association
56 pages
02 Algorithmes
Pas encore d'évaluation
02 Algorithmes
102 pages
Exercice Random Forest Classification Bayesienne
Pas encore d'évaluation
Exercice Random Forest Classification Bayesienne
5 pages
TP 01 Préaparation de Données
Pas encore d'évaluation
TP 01 Préaparation de Données
3 pages
Cours: Préparation À La Certification: Big Data
Pas encore d'évaluation
Cours: Préparation À La Certification: Big Data
42 pages
Chapitre II - Modélisation Multidimensionnelle
Pas encore d'évaluation
Chapitre II - Modélisation Multidimensionnelle
16 pages
Correction TD1 Partie 1
Pas encore d'évaluation
Correction TD1 Partie 1
16 pages
Cours-4 - Interrogation Big Data-Hive
Pas encore d'évaluation
Cours-4 - Interrogation Big Data-Hive
8 pages
Data Mining
Pas encore d'évaluation
Data Mining
36 pages
01 Introduction DM
Pas encore d'évaluation
01 Introduction DM
26 pages
Fouille Des Données
100% (2)
Fouille Des Données
28 pages
TP1 1
Pas encore d'évaluation
TP1 1
4 pages
Exam Systeme Multi Agents
Pas encore d'évaluation
Exam Systeme Multi Agents
3 pages
Deep Learning CNN
Pas encore d'évaluation
Deep Learning CNN
22 pages
Machine Learning 2 PDF
Pas encore d'évaluation
Machine Learning 2 PDF
18 pages
Langage Formel ET Théorie des Automates
D'Everand
Langage Formel ET Théorie des Automates
Ajit Singh
Pas encore d'évaluation