“En 2017, le site internet “make.org” est créé dans le but de répondre à des problèmes modernes. Le but est aussi d’offrir un espace d’expression aux citoyens français : en suggérant des propositions et des mesures sur des sujets qui les intéressent. Dans le cadre ce projet, nous travaillerons uniquement sur le thème de la mode responsable : « Comment agir ensemble pour une mode plus responsable? ».
Nous nous sommes concentrés sur l’analyse et la modélisation des thèmes abordés. Pour ce faire, nous avons utilisé un apprentissage supervisé sur la base des tags manuelles mais aussi des techniques d’apprentissage non supervisées. Pour la méthode supervisée, nous avons utilisé des algorithmes qui permettent d’automatiser la classification des textes. Pour l’apprentissage non supervisé, nous avons principalement utilisé l’algorithme de clustering.
Après une analyse descriptive du profil des personnes interrogées, nous avons nettoyé notre ensemble de données (ou corpus). Nous avons préparé et normalisé les données textuelles. Après cette phase de prétraitement, nous avons récupéré un dictionnaire de mots. C’est ce dictionnaire que nous avons essentiellement utiliser pour transformer nos données textuelles en vecteur numérique, (en utilisant TF-IDF et fasttext pour l’apprentissage supervisé et word2vec, fasttext, LDA pour le non supervisé).
Après avoir choisi la taille de dictionnaire de mots qui maximisent la précision et le score du recall (mémoire) de notre modèle, nous avons commencé notre modélisation supervisée : nous avons utilisé la régression logistique, le classifieur bayésien naïf, la forêt d’arbres de decision (random forest) et la SVM. Pour comparer les résultats et les performances de chaque modèle, nous nous sommes concentrés sur le score F1, l’exactitude, la précision et le score du recall.
En ce qui concerne l’apprentissage non supervisé, nous avons utilisé différents types de vectorialisation de mots : Fastext, word2vec et LDA. En sortie, nous obtenons un vecteur de plus de dix dimensions. Afin de visualiser les clusters, nous avons dû réduire la dimension de ces vecteurs. Nous avons utilisé une ACP pour cette tâche. Enfin, nous avons mis en œuvre différents algorithmes de clustering. Celui sur lequel nous nous sommes le plus concentrés est le HDBSCAN. Étant donné qu’il n’y a pas beaucoup de façons d’évaluer les résultats d’un apprentissage non supervisé ( particulièrement en NLP) , nous avons choisir le nombre de clusters de manière heuristique.
Mots clés :
NLP, apprentissage supervisé, TF-IDF, apprentissage non supervisé, fasttext, clustering, LDA, ACP, HDBS- CAN, regression logistique, classifieur bayésien naïf, forêt d’arbres de decision, machine à support de vecteur.”