Analyse d’une consultation citoyenne par NLP : « Comment agir ensemble pour une mode plus responsable ? »

apprentissage supervisé NLP

« En 2017, le site internet « make.org » est créé dans le but de répondre à des problèmes modernes. Le but est aussi d’offrir un espace d’expression aux citoyens français : en suggérant des propositions et des mesures sur des sujets qui les intéressent. Dans le cadre ce projet, nous travaillerons uniquement sur le thème de la mode responsable : « Comment agir ensemble pour une mode plus responsable? ».

Nous nous sommes concentrés sur l’analyse et la modélisation des thèmes abordés. Pour ce faire, nous avons utilisé un apprentissage supervisé sur la base des tags manuelles mais aussi des techniques d’apprentissage non supervisées. Pour la méthode supervisée, nous avons utilisé des algorithmes qui permettent d’automatiser la classification des textes. Pour l’apprentissage non supervisé, nous avons principalement utilisé l’algorithme de clustering.

Après une analyse descriptive du profil des personnes interrogées, nous avons nettoyé notre ensemble de données (ou corpus). Nous avons préparé et normalisé les données textuelles. Après cette phase de prétraitement, nous avons récupéré un dictionnaire de mots. C’est ce dictionnaire que nous avons essentiellement utiliser pour transformer nos données textuelles en vecteur numérique, (en utilisant TF-IDF et fasttext pour l’apprentissage supervisé et word2vec, fasttext, LDA pour le non supervisé).

Après avoir choisi la taille de dictionnaire de mots qui maximisent la précision et le score du recall (mémoire) de notre modèle, nous avons commencé notre modélisation supervisée : nous avons utilisé la régression logistique, le classifieur bayésien naïf, la forêt d’arbres de decision (random forest) et la SVM. Pour comparer les résultats et les performances de chaque modèle, nous nous sommes concentrés sur le score F1, l’exactitude, la précision et le score du recall.

En ce qui concerne l’apprentissage non supervisé, nous avons utilisé différents types de vectorialisation de mots : Fastext, word2vec et LDA. En sortie, nous obtenons un vecteur de plus de dix dimensions. Afin de visualiser les clusters, nous avons dû réduire la dimension de ces vecteurs. Nous avons utilisé une ACP pour cette tâche. Enfin, nous avons mis en œuvre différents algorithmes de clustering. Celui sur lequel nous nous sommes le plus concentrés est le HDBSCAN. Étant donné qu’il n’y a pas beaucoup de façons d’évaluer les résultats d’un apprentissage non supervisé ( particulièrement en NLP) , nous avons choisir le nombre de clusters de manière heuristique.

Mots clés :

NLP, apprentissage supervisé, TF-IDF, apprentissage non supervisé, fasttext, clustering, LDA, ACP, HDBS- CAN, regression logistique, classifieur bayésien naïf, forêt d’arbres de decision, machine à support de vecteur. »