0% ont trouvé ce document utile (0 vote)
724 vues26 pages

Chapitre 1 Introduction à La Science Des DonnÃes

Ce document introduit les concepts clés de la science des données, y compris ses définitions, son histoire et ses domaines d'application courants.

Transféré par

eya nafti
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
724 vues26 pages

Chapitre 1 Introduction à La Science Des DonnÃes

Ce document introduit les concepts clés de la science des données, y compris ses définitions, son histoire et ses domaines d'application courants.

Transféré par

eya nafti
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
Vous êtes sur la page 1/ 26

Data Science Fundamentals

Cours de Mastère (S1) : Intelligent DEcision mAking Strategies (IDEAS)


Chapitre 1 : Introduction à la Science des données
Wahiba Ben Abdessalem
Institut Supérieur de Gestion de Tunis
Data Science Fundamentals

2
Data Science Fundamentals
Introduction à la Science des données
Plan du cours

Objectifs
Ce module est introductif et a pour objectif la familiarisation des étudiants avec les concepts relatifs à la Science des données
et à la compréhension de son utilité à travers des exemples.
Chapitres :
Chapitre 1 : Introduction à la Science des données
Chapitre 2 : Méthodologie de Science des données (processus)
Chapitre 3 : Outils de la Science des données ( langages et algorithmes)
Chapitre 4 : Applications de la Science des données
Chapitre 5 : la Science des données et le Big data
Chapitre 6 : La Visualisation dans la Science des données
Chapitre 7 : Ethiques des Sciences des données

3
Références bibliographiques

- Morand, Elisabeth. "Data science: fondamentaux et études


de cas, Machine learning avec Python et R by Eric Biernat Dietrich, David. "Data Science
and Michel Lutz." Population, English edition 73.2 (2018): & Big Data Analytics." (2015).
386-387.

KELLEHER, JOHN D. "Data science/John D. Laura, Igual, and Seguí Santi. "Introduction to Ozdemir, Sinan. Principles of data science.
Kelleher and Brendan Tierney. Description: Data Science: A Python Approach to Concepts, Packt Publishing Ltd, 2016.
Cambridge, MA: The MIT Press, 2018 Techniques and Applications." (2017). 4
Références bibliographiques

Kotu, Vijay, and Bala Deshpande. Data science: Grus, Joel. Data science par la
concepts and practice. Morgan Kaufmann, 2018.
Wagh, Sanjeev J., Manisha S. Bhende, and pratique: fondamentaux avec Python.
Anuradha D. Thakare. Fundamentals of Data Eyrolles, 2020.
Science. Chapman and Hall/CRC, 2021.

5
Introduction à la Data Science
Qu’est-ce qu’on entend par « Data Science » ?

Data science is a compilation of techniques that extract value from data.


Some of the techniques used in data science have a long history and trace
their roots to applied statistics, machine learning, visualization, logic, and
computer science
(Kotu, Vijay, and Bala Deshpande. Data science: concepts and
practice. Morgan Kaufmann, 2018.)

Data science is commonly defined as a methodology by which actionable


insights can be inferred from data…. Performing data science is a task with
an ambitious objective: the production of beliefs informed by data and to
be used as the basis of decision-making.
Laura, Igual, and Seguí Santi. "Introduction to Data Science:
A Python Approach to Concepts, Techniques and
Applications." (2017). 6
01 Introduction à la Data Science
Qu’est-ce qu’on entend par « Data Science » ?

Définition

« La data science (ou science des données) est un domaine


interdisciplinaire, qui emprunte au business, aux statistiques et à
l’informatique diverses méthodes, processus et algorithmes pour extraire
des informations des données. »

Selon le Bureau of Labor Statistics des États-Unis, les opportunités d'emploi dans
le domaine de la science des données devraient augmenter de 31,4 % entre 2020
et 2030. Les data scientists peuvent également s'attendre à gagner un salaire de
100, 480 USD.
(https://www.bls.gov/emp/tables/fastest-growing-occupations.htm) 7
01 Introduction à la Data Science

Un peu d’histoire…

1er cas concret de machine


learning :un programme 1959
apprend à jouer aux dames
Même si le domaine s’est beaucoup Première apparition de
démocratisé ces 10 dernières
années, la data science est en
1991 l’expression “data science”
(Peter Naur)
réalité beaucoup plus âgée qu’elle Un algorithme de Machine
n’y parait… Learning (Deeper Blue) bat
le champion du monde 1997
d’échecs
Un algorithme de Deep
Learning (AlphaGo) bat le
2016 champion du monde de
Go

8
01 Introduction à la Data Science

Un peu d’histoire…

La data science existe depuis des décennies...

Alors pourquoi ce nouvel élan ?


▪ Explosion de la quantité des données produites et collectées (big data…)
▪ Stockage des données plus économique
▪ Augmentation exponentielle des capacités de calcul des ordinateurs
▪ Amélioration d’accessibilité aux algorithmes

9
Introduction à la Data Science
Qu’est-ce qu’on entend par « Data Science » ?

Lorsqu’on parle de Data Science, on englobe beaucoup de domaines d’application


possibles. Les domaines les plus courants sont :

10
Introduction à la Data Science
AI, MACHINE LEARNING, AND DATA SCIENCE

• L'intelligence artificielle, l'apprentissage automatique et la science des données


sont tous liés les uns aux autres. ils sont souvent confondus les uns avec les
autres dans les médias populaires et la communication commerciale.
• Cependant, ces trois domaines sont distincts selon le contexte :
• L'intelligence artificielle consiste à donner aux machines la capacité d'imiter le
comportement humain, en particulier les fonctions cognitives. Exemples :
reconnaissance faciale, conduite automatisée, tri du courrier en fonction du code
postal. Dans certains cas, les machines ont largement dépassé les capacités
humaines (trier des milliers de courriers postaux en quelques secondes)
• Il existe toute une gamme de techniques relevant de l'intelligence artificielle :
traitement du langage naturel, science de la décision, robotique, planification, etc.

11
Introduction à la Data Science
AI, MACHINE LEARNING, AND DATA SCIENCE

• L'apprentissage est une partie importante de la capacité humaine.


• L'apprentissage automatique peut être considéré comme un sous-domaine
ou l'un des outils de l'intelligence artificielle, il fournit aux machines la
capacité d'apprendre de l'expérience

• L'expérience des machines se présente sous la forme de données.


• Les données utilisées pour enseigner aux machines sont appelées
données de formation (training data).

12
Introduction à la Data Science
AI, MACHINE LEARNING, AND DATA SCIENCE

• L'apprentissage automatique bouleverse le modèle de programmation traditionnel:

• Un programme, un ensemble d'instructions pour un ordinateur, transforme les signaux d'entrée en


signaux de sortie en utilisant des règles et des relations prédéterminées.

• Algorithmes d'apprentissage automatique, également appelés "apprenants", prennent à la fois


l'entrée et la sortie connues (données de formation) pour déterminer un modèle pour le programme
qui convertit l'entrée en sortie.

13
Introduction à la Data Science
AI, MACHINE LEARNING, AND DATA SCIENCE

Comment fonctionne l’apprentissage automatique:

• Par exemple, de nombreuses organisations telles que les plateformes de


médias sociaux, les sites d'évaluation ou les forums sont tenues de
modérer les publications et de supprimer le contenu abusif.
• Comment apprendre aux machines à automatiser la suppression des
contenus abusifs ?

14
Introduction à la Data Science
AI, MACHINE LEARNING, AND DATA SCIENCE

Comment apprendre aux machines à automatiser la suppression des


contenus abusifs ?

• Les machines doivent recevoir des exemples de messages abusifs et non


abusifs avec une indication claire de celui qui est abusif.
• Les apprenants généraliseront un modèle basé sur certains mots ou
séquences de mots afin de conclure si le message global est abusif ou non.
• Le modèle peut prendre la forme d'un ensemble de règles "si - alors".
• Une fois que les règles ou le modèle de science des données sont
développés, les machines peuvent commencer à catégoriser la nature de
tout nouveau message.

15
Introduction à la Data Science
AI, MACHINE LEARNING, AND DATA SCIENCE

• La science des données est l'application métier de l'apprentissage


automatique, de l'intelligence artificielle et d'autres domaines quantitatifs
tels que les statistiques, la visualisation et les mathématiques.
• C'est un domaine interdisciplinaire qui extrait la valeur des données.
• Elle s'appuie fortement sur l'apprentissage automatique et est parfois
appelée exploration de données.
• Des exemples de cas d'utilisation de la science des données sont : les
moteurs de recommandation qui peuvent recommander des films pour un
utilisateur particulier, un modèle d'alerte à la fraude qui détecte les
transactions frauduleuses par carte de crédit, trouver les clients qui vont
très probablement se désabonner le mois prochain ou prédire les revenus
pour le prochain trimestre..
16
Introduction à la Data Science
AI, MACHINE LEARNING, AND DATA SCIENCE

• La science des données commence par des données, qui peuvent aller
d'un simple tableau de quelques observations numériques à une matrice
complexe de millions d'observations avec des milliers de variables. La
science des données utilise certaines méthodes de calcul spécialisées afin
de découvrir des structures significatives et utiles dans un ensemble de
données.
• La discipline de la science des données coexiste et est étroitement
associée à un certain nombre de domaines connexes tels que les systèmes
de bases de données, l'ingénierie des données, la visualisation, l'analyse
des données, et l'intelligence d'affaires (BI).

17
Introduction à la Data Science
AI, MACHINE LEARNING, AND DATA SCIENCE

Nous pouvons définir plus précisément la science des données en étudiant


certaines de ses principales caractéristiques et motivations telles que :

1- Extraction de patterns significatifs


2- Construire des modèles représentatifs
3- Combinaison de statistiques, d'apprentissage automatique et L'informatique
4- Learning Algorithms (Algorithmes d'apprentissage)
5- D’autres champs associés

18
Introduction à la Data Science
Principales caractéristiques et motivations du data science

1- Extraction de patterns significatifs


La science des données implique l'inférence et l'itération de nombreuses
hypothèses différentes. L'un des aspects clés de la science des données est
le processus de généralisation des patterns (motif, patron ou modèles) à
partir d'un ensemble de données.
La généralisation doit être valide, non seulement pour l'ensemble de données
utilisé pour observer le pattern, mais également pour les nouvelles données

- Exemples de pattern de la langue française :


Je suis (adjectif ou nom)
Je suis Tunisien(ne)
Il lit un (document)
Il lit un livre
19
Introduction à la Data Science
Principales caractéristiques et motivations du data science

2- Construire des modèles représentatifs


En statistique, un modèle décrit comment une ou plusieurs variables dans les
données sont liées à d'autres variables.
La modélisation est un processus dans lequel une abstraction représentative
est construite à partir de l'ensemble de données observé.

Exemple 1:

• Humain lit un (document), document = livre, journal, revue….

20
Introduction à la Data Science
Principales caractéristiques et motivations du data science
2- Construire des modèles représentatifs
Exemple 2 :

• En fonction du niveau de revenu et du montant du prêt demandé, un modèle


peut être développé pour déterminer le taux d'intérêt d'un prêt.
• La science des données est le processus de construction d'un modèle
représentatif qui correspond aux données d'observation.
• Un modèle peut être utilisé à la fois pour des applications prédictives et
explicatives :
• D'une part, il prédit la sortie (taux d'intérêt) en fonction de l'ensemble de variables d'entrée
(niveau de revenu et montant du prêt)
• D'autre part, le modèle peut être utilisé pour comprendre la relation entre la variable de
sortie et toutes les variables d'entrée. Par exemple, le niveau de revenu importe-t-il
vraiment pour déterminer le taux d'intérêt d'un prêt ? Que se passe-t-il lorsque les niveaux
de revenu doublent?
21
Introduction à la Data Science
Principales caractéristiques et motivations du data science
3- Combinaison de statistiques, d'apprentissage automatique et L'informatique
• Dans le but d'extraire des informations utiles et pertinentes la science des
données emprunte des techniques de calcul aux disciplines des statistiques, de
l'apprentissage automatique, et des théories des bases de données.
• Les algorithmes utilisés en science des données proviennent de ces disciplines
mais ont depuis évolué (informatique parallèle, informatique évolutive…)
• L'un des ingrédients clés d'une science des données réussie est une
connaissance préalable solide sur les données et les processus métier qui
génèrent les données,

• La science des données fonctionne également généralement sur de grands


ensembles de données qui doivent être stockés, traités et calculés.
• C'est là que les techniques de base de données ainsi que les techniques de
calcul parallèle et distribué jouent un rôle important dans la science des données.
22
Introduction à la Data Science
Principales caractéristiques et motivations du data science
4- Learning Algorithms (Algorithmes d'apprentissage)
• L'application d'algorithmes d'apprentissage sophistiqués pour extraire des
modèles utiles à partir de données différencie la science des données des
techniques traditionnelles d'analyse de données.
• Beaucoup de ces algorithmes ont été développés au cours des dernières
décennies et font partie de l'apprentissage automatique et de l'intelligence
artificielle.
• Certains algorithmes sont basés sur les fondements des théories probabilistes
bayésiennes et de l'analyse de régression, datant d'il y a des centaines d'années.
Ces algorithmes itératifs automatisent le processus de recherche d'une solution
optimale pour un problème de données donné.
• En fonction du problème, la science des données utilise des algorithmes
d'apprentissage spécifiques tels que les arbres de décision, les réseaux de
neurones, les k-plus proches voisins (k-NN) et le clustering k-means, entre autres
23
Introduction à la Data Science
Principales caractéristiques et motivations du data science
5- Champs associés

• Alors que la science des données couvre un large éventail de techniques, d'applications et de
disciplines, il existe quelques domaines associés sur lesquels la science des données s'appuie
fortement :
• Statistiques descriptives : la moyenne de calcul, l'écart type, la corrélation et d'autres statistiques
descriptives permettent de quantifier la structure agrégée d'un ensemble de données.
• Visualisation exploratoire (Exploratory visualization ) : le processus d'expression des données en
coordonnées visuelles permet aux utilisateurs de trouver des modèles et des relations dans les
données et de comprendre de grands ensembles de données.
• Intelligence d'affaires (Business Intelligence) : aide les organisations à utiliser efficacement les
données. Il permet d'interroger les données sans avoir besoin d'écrire la commande de requête
technique,
• Ingénierie des données : c’est le processus de recherche, d'organisation, d'assemblage, de stockage
et de distribution de données pour une analyse et une utilisation efficaces. L'ingénierie de base de
données (par exemple, Apache Hadoop, Spark, Kafka), le calcul parallèle, l'entreposage de données
constituent des techniques d'ingénierie de données.
24
Types de Data Science

25
Types de Data Science
Taches Déscription Algorithmes Exemples

Classification Prédire si un point de données appartient à l'une Decision Trees, Neural -Répartition des électeurs dans les partis politiques (les
des classes prédéfinies. La prédiction sera basée networks, Bayesian models, campagnes d'Obama en 2008 et 2012 et social médias)
sur l'apprentissage à partir d'un ensemble de Induction rules, K nearest -Regroupement de nouveaux clients dans l'un des
données connu. neighbors groupes de clients connus.

Regression Prédire l'étiquette cible numérique d'un point de Linear regression, Logistic Prévision du taux de chômage pour l'année prochaine.
données. La prédiction sera basée sur regression Estimation de la prime d'assurance.
l'apprentissage à partir d'un ensemble de données
connu.

Anomaly detection Prédisez si un point de données est une valeur Distance based, Density based, Détection des transactions frauduleuses dans les cartes
aberrante par rapport aux autres points de LOF de crédit.
données de l'ensemble de données. Détection d'intrusion réseau.

Time series Prédire si la valeur de la variable cible pour la Exponential smoothing, ARIMA, Prévision des ventes, prévision de la production,
période future est basée sur les valeurs regression pratiquement tout phénomène de croissance qui doit
historiques. être traité

Clustering Identifiez les clusters naturels dans l'ensemble de K means, density based Recherche de segments de clientèle dans une
données en fonction des propriétés héritées de clustering - DBSCAN entreprise sur la base des données de transaction, du
l'ensemble de données. Web et des appels des clients.

Association analysis Identifiez les relations au sein d'un ensemble FP Growth, Apriori Trouvez des opportunités de vente croisée pour un
d'éléments en fonction des données de détaillant ou en fonction de l'historique des 26
transaction. transactions d'achat.

Vous aimerez peut-être aussi