Utilisateur:Micha112/Analyses textuelles (M2 D2SN, 2024)
Il a été question de chercher une base de données des articles sur le thème de la formation des étudiants en situation de handicap. Nous cherchons à mieux comprendre le contenu thématique de cette matière grise sur le sujet. Un travail a été réalisé pour tokénizer et lématiser et retirer les mots vides (stopwords) et les caractères spéciaux (nettoyage), produire des nuages des mots reflétant les termes les plus utilisés, étudier leurs fréquences, les mots clés et thématiques des articles. Ce travail nous renseigne sur les thématiques soulevées par ces articles.
À partir de la colonne abstract du dataframe,
- Concaténation de toutes les valeurs de la colonne en une seule chaîne et retirer les valeurs nan
- Tokenization des mots
- Lématization des mots
- Convertir la liste de mots lemmatisés en une chaîne de caractères
- Créer un objet WordCloud et afficher le nuage de mots
- Filtrer les mots lemmatisés pour exclure les prépositions
- Filtrer les mots pour ne garder que les noms (substantifs) et les verbes
- Recréer un nuage de mots
- Compter la fréquence des mots et trier les mots par fréquence croissante
- Recréer un nuage de mots fidèle à la fréquence réelle des mots
- Trouver des mots clés
- Trouver les thématiques des articles (topic modelling)
Lien vers le notebook: https://colab.research.google.com/drive/1glRWwaB4LFMEEM9RXPmHmOIzNmLud75c?usp=sharing