ENSAE Paris - École d'ingénieurs pour l'économie, la data science, la finance et l'actuariat

Python pour la data-science

Enseignant

Objectif

Le langage Python est récemment devenu, dans le monde académique comme sur le marché du travail, un outil indispensable pour le traitement de données. La richesse de ce langage permet de l’utiliser dans toutes les phases du traitement de la donnée, de sa récupération et structuration à partir de sources diverses à sa valorisation. Ce cours introduit différents outils qui permettent de mettre en relation des données et des théories grâce à Python.

Plan

Introduction:

  1.  Retour sur les notions fondamentales de Python
  2. Présentation de l'écosystème Python pour la data-science
  3. Initiation aux bonnes pratiques
  4. Présentation des principes de la data-science

Partie 1: Manipuler des données

  1. Principes de base avec numpy
  2. Manipuler des bases de données avec pandas et SQL
  3. Introduction aux données spatiales (geopandas)
  4. Récupérer des données par webscraping et API

Partie 2: Visualiser

 

  1. Présentation des packages de base pour les graphiques: matplotlib, seaborn
  2. Visualisations HTML avec plotly
  3. Cartographie: cartes fixes (matplotlib + geopandas) et cartes dynamiques (folium)

 

Partie 3: Modéliser

  1. Preprocessing et démarche du machine learning
  2. Evaluation d'un modèle et validation croisée
  3. Classification
  4. Régression
  5. Sélection de variables
  6. Clustering
  7. Pipelines scikit

Partie 4: Natural Langage Processing

  1. Preprocessing
  2. Approche bag of words
  3. Latent Dirichlet Allocation (LDA)
  4. Word Embedding (Word2Vec)

Partie 5: Découverte de la data-science moderne

Cette partie n'est pas enseignée en classe mais est utile pour le reste de la scolarité

  1. Intégration continue
  2. Format parquet et données sur le cloud
  3. ElasticSearch
  4. Génération d'image: dall-E et stable diffusion

Supplément: Git & Github

Références

Site web du cours: https://pythonds.linogaliana.fr/

Tous les codes sources sont disponibles sur Github: https://github.com/linogaliana/python-datascientist

Tous les chapitres du cours sont disponibles sur le site web et disponibles sous format notebook dans divers environnement (SSP Cloud, Google Colab, Binder, Visual studio dev...).

Les éléments relatifs à l'évaluation sont dans la section dédiée

Un ensemble de référence est disponible dans la section dédiée

La présentation faite en amphithéâtre est disponible ici