Un projet de NLP lauréat du prix SFdS-ENSAI
Chaque année, la Société Française de Statistique (SFdS) décerne un prix du meilleur projet statistique de deuxième année à des étudiants de l’ENSAI. Anne-Sophie Le Bayon, Hugo Miccinilli et Tangi Tassin sont les lauréats 2022 pour leur projet « Analyse d’une consultation citoyenne : « Comment agir ensemble dès maintenant pour l’environnement ? ».
Les trois Ensaiens sont invités à présenter leur projet lors des 54e Journées de la Statistique de la SFdS qui se dérouleront à Bruxelles du 3 au 7 juillet 2023. Les lauréats et leur tutrice Anne-Cécile Gay, data scientist, verront ainsi leurs travaux valorisés auprès d’un large public de professionnels de la statistique exerçant dans des organisations publiques et privées.
En juillet 2022, une présélection de cinq projets a été réalisée par des enseignants-chercheurs de l’ENSAI et transmise au jury, présidé par Aurélie Fischer (Université Paris-Cité) et composé de spécialistes de la SFdS. Au sujet du projet « Analyse d’une consultation citoyenne : « Comment agir ensemble dès maintenant pour l’environnement ? », Anne Philippe, présidente de la SFdS, a souligné la volonté de pédagogie et d’exhaustivité du rapport, à travers la présence d’un glossaire, d’une description des notations, de rappels, de résumés intermédiaires, mais aussi de détails concernant l’implémentation.
“Les étudiants, sans connaissances préalables dans ce domaine, ont présenté clairement les étapes du traitement de la langue naturelle (NLP), qui suppose un prétraitement important des données, expliqué la nécessité d’une réduction de dimension et l’intérêt dans l’analyse exploratoire d’effectuer une classification non supervisée, et ont appliqué ces procédures aux données à étudier, issues de l’enquête sur le thème de l’environnement.”
Résumé du projet par les trois lauréats
“Make.org est une organisation qui a pour but de faire participer les citoyens et les mobiliser afin de transformer positivement notre société. Ils sont donc appelés à donner leur avis sur des sujets très divers. C’est dans l’optique de faciliter l’étude des propositions réalisées qui nous avons travaillé sur ce projet avec Anne-Cécile Gay, data scientist. La plateforme propose une thématique et les citoyens sont amenés à faire leurs propres propositions et réagir à celles des autres participants. Afin d’en ressortir les principales idées, une étude doit être effectuée par Make.org. Actuellement, cette étape est réalisée manuellement.
L’objectif de notre projet a été d’automatiser cette étape en prenant comme référence les propositions issues de la thématique « Comment agir ensemble dès maintenant pour l’environnement ? »
Suite à l’analyse descriptive de notre jeu de données, un jeu contenant 9501 propositions avec 4469 auteurs, nous avons réalisé un pré-traitement dans le but d’avoir des données exploitables par les techniques de NLP (Natural Language Processing). Nous avons donc normalisé, tokénisé, supprimé les stop words et lemmatisé les données.
Nous avons ensuite réalisé trois modèles de word embedding par le biais de trois modélisations différentes : CBOW, GloVe et Skip-gram. Pour chaque modèle, nous avons réalisé un tuning sur les hyperparamètres et réalisé une évaluation intra-modèle en comparant les similarités entre mots en se basant sur un dictionnaire de relation baptisé BATS. Un deuxième contrôle via les tags des propositions nous a permis de corroborer le bon fonctionnement de cette méthode.
Une fois la représentation vectorielle des lemmes de nos propositions faite, nous avons effectué un doc embedding afin d’avoir la représentation vectorielle des documents. Nous avons pris en compte quatre méthodes :
- Moyenne avec pondération TF ;
- Moyenne avec pondération TF-IDF ;
- Embedding basé sur la mesure de distance Word Mover’s Distance (WMD) ;
- Embedding basé sur la mesure de distance WMD en appliquant une technique statistique MDS (Multidimensional Scaling);
Le doc embedding nous a permis d’appliquer des approches d’apprentissage non-supervisée pour regrouper les propositions similaires. La création de ces clusters de propositions peut se faire via de nombreuses manières incluant des approches paramétriques comme GMM, basées sur des centroïdes comme K-means ou bien sur la densité comme HDBSCAN.
A l’issue de ce projet, nous avons classé les propositions des citoyens en différents groupes représentant chacun une idée principale, ce qui en a facilité l’interprétation.”
En savoir plus sur les projets d’étude à l’ENSAI