ENSAE Paris - École d'ingénieurs pour l'économie, la data science, la finance et l'actuariat

Methods in quantitative sociology

Objectif

Ce cours consiste en la présentation de méthodes statistiques avancées, encore peu utilisées en sciences sociales et/ou peu abordées dans le cursus à l’Ensae, mais qui se révèlent très performantes et tout à fait complémentaires avec une formation en économétrie. Le cours se composera de 3 modules de 9 heures, chaque module abordant une méthode de manière pratique et interactive, à partir de l’analyse de données empiriques à l’aide de logiciels spécialisés.

A l’issue de ce cours, les étudiants doivent être capable : 

          -de comprendre l’utilisation des méthodes abordées en cours dans des articles de sociologie, d’en évaluer les apports et les limites ;

          -de mettre en œuvre de manière pertinente les méthodes abordées en cours à partir de données empiriques.

Plan

  • Analyse en classes latentes (ACL) et modèles de mélange – une vaste famille d’approches probabilistes de la classification – dont l’ACL fera l’objet d’attention de ce module – qui permettent l’évolution de l’approche algorithmique, heuristique et géométrique (e.g., K-Means, Classification hiérarchique, ACM) vers un traitement statistique d’hypothèses préalables sur des données complexes et des populations hétérogènes.
  • Topic model – ces modèles de classification mixte développés pour l'analyse du langage peuvent être employés avec de nombreux types de données, et sont notamment performant sur des matrices sparse comportant un grand nombre de colonnes, comme les tableaux de distributions des mots dans des documents. On présentera l'algorithme le plus central, latent dirichlet allocation (LDA) ainsi que des modèles plus récents employés en sciences sociales (Structural Topic Models).
  • Modèles multiniveaux – ces modèles permettent d’étudier des données hiérarchisées (par exemple, élèves au sein de classes, patients au sein d’hôpitaux) en tenant compte de l’influence d’effets contextuels sur les phénomènes étudiés, au-delà de l’effet des caractéristiques individuelles.

Références

Blei, David M., Lafferty, John D., 2009. "Topic models" in Srivastava, Ashok N., Sahami, Mehran (Eds.), Text Mining. Classification, Clustering and Applications, Chapman and Hall/CRC, p. 71-94.

Di Prete T. A., Forristal J. D., 1994, « Multilevel Models : Methods and Substance », Annual Review of Sociology, 20, p. 331-357.

Hastie, T. J.; Tibshirani, R. J.; Friedman, J. H., 2009, The Elements of Statistical Learning, Springer.

Magidson Jay, Vermunt Jeroen, 2004,. « Latent class models », In D. Kaplan (Ed.), Handbook of quantitative methodology for the social sciences (pp. 175–198). Newbury Park, CA: Sage.

Mohr, John W., Bogdanov, Petko, 2013. "Topic models. What they are and why they matter", Poetics , 41, p. 545-569

Muthén Bengt, 2008, « Latent variable hybrids: Overview of old and new models », In Hancock, G. R., & Samuelsen, K. M. (Eds.), Advances in latent variable mixture models (pp. 1-24).

Snijders T. A., Bosker J., 1999, Introduction to Multilevel Analysis, London, Sage.