Python pour la data-science
Enseignant
Crédits ECTS :
2
Heures de cours :
0
Heures de TD :
21
Langue :
Français
Modalité d'examen :
mém+sout.
Objectif
Le langage Python est récemment devenu, dans le monde académique comme sur le marché du travail, un outil indispensable pour le traitement de données. La richesse de ce langage permet de l’utiliser dans toutes les phases du traitement de la donnée, de sa récupération et structuration à partir de sources diverses à sa valorisation. Ce cours introduit différents outils qui permettent de mettre en relation des données et des théories grâce à Python.
Plan
Introduction:
- Retour sur les notions fondamentales de Python
- Présentation de l'écosystème Python pour la data-science
- Initiation aux bonnes pratiques
- Présentation des principes de la data-science
Partie 1: Manipuler des données
- Principes de base avec numpy
- Manipuler des bases de données avec pandas et SQL
- Introduction aux données spatiales (geopandas)
- Récupérer des données par webscraping et API
Partie 2: Visualiser
- Présentation des packages de base pour les graphiques: matplotlib, seaborn
- Visualisations HTML avec plotly
- Cartographie: cartes fixes (matplotlib + geopandas) et cartes dynamiques (folium)
Partie 3: Modéliser
- Preprocessing et démarche du machine learning
- Evaluation d'un modèle et validation croisée
- Classification
- Régression
- Sélection de variables
- Clustering
- Pipelines scikit
Partie 4: Natural Langage Processing
- Preprocessing
- Approche bag of words
- Latent Dirichlet Allocation (LDA)
- Word Embedding (Word2Vec)
Partie 5: Découverte de la data-science moderne
Cette partie n'est pas enseignée en classe mais est utile pour le reste de la scolarité
- Intégration continue
- Format parquet et données sur le cloud
- ElasticSearch
- Génération d'image: dall-E et stable diffusion
Supplément: Git & Github
Références
Site web du cours: https://pythonds.linogaliana.fr/
Tous les codes sources sont disponibles sur Github: https://github.com/linogaliana/python-datascientist
Tous les chapitres du cours sont disponibles sur le site web et disponibles sous format notebook dans divers environnement (SSP Cloud, Google Colab, Binder, Visual studio dev...).
Les éléments relatifs à l'évaluation sont dans la section dédiée
Un ensemble de référence est disponible dans la section dédiée
La présentation faite en amphithéâtre est disponible ici