Utilisateur:馬帝思/Analyses textuelles (M2 D2SN, 2024)
Corpus étudié : Base de données Europresse d'articles consacrés à la situation démographique du Japon.
Séance 2
- Téléchargement de corpus via Europresse.
- Exploration des données via Cortext Manager : extraction de termes et constitution de réseaux en vue de voir des premiers résultats.
- Ajustement du corpus à partir de ces premières visualisations en vue de le délimiter de la façon la plus pertinente possible avec les mots clés les plus pertinents.
Séance 3
- Appropriation du script Sashimi sur Cortext Manager.
- Application de Sashimi sur les corpus constitués à la précédente séance.
- Etude des résultats, et prévision d'ajustement et de précision des corpus sur cette base.
Séance 4
- À partir des résultats du dernier usage de Sashimi, retour sur Europresse pour adapter les mots clés pour constituer le corpus.
- Sélection des mots-clés suivants : TEXT= (("démographie"|"natalité"|"fécondité") @ Japon*)& TIT_HEAD= Japon*
- Sélection des 1000 résultats les plus pertinents, et traitement par Sashimi.
Séance 5
- Travail sur différents scripts cortext : Sashimi, Network Mapping, Sentiment Analysis.
- Difficultés dans l'usage de Sashimi malgré son étude. Sentiment Analysis non fonctionnel.
- Réalisations de différents réseaux avec plusieurs paramètres.
Résultats :
- Réseau terms/terms (150 expressions) : https://retina.cortext.net/#/graph/?url=https%3A%2F%2Fassets.cortext.net%2Fdocs%2F1ae750d468efe3cd1fc0d22bde7c2ac2
- Nous pouvons observer 6 cluster sur ce réseau : le bleu fait référence à la dimension politique de l'enjeu (nom de politiciens, de partis politiques...), le orange à la dimension économique (politique monétaire, FMI...), le jaune plutôt aux enfants (place en crèche, garde d'enfants, éducation des enfants...), le vert à la démographie (taux de natalité, population totale, espérance de vie...), le orange pale à la dimension économique de l'immigration (marché de l'emploi, travailleurs étrangers...) et le rouge aux enjeux en lien avec la place des femmes dans la société (mère de famille, femme au foyer, égalité des sexes...).
- Réseau terms/terms étendu (300 expressions) : https://retina.cortext.net/#/graph/?url=https%3A%2F%2Fassets.cortext.net%2Fdocs%2F24b6811be3f6214b321ec76f36d3aeef
- On observe plus ou moins les mêmes clusters, mais avec un gros bloc central contenant 4 clusters plus ou moins entremêlés, et avec plus de noeuds observables. Se distinguent particulièrement en orange foncé la dimension politique, en bleu la dimension économique, en vert foncé l'immigration. Les 4 autres clusters, parlant tous de sujets plus ou moins liés à la démographie (plutôt en rouge), la famille (plutôt en orange) ou à la place des femmes (plutôt en jaune), sont en réalité assez mêlés.
- Réseau ISIterms/titles : https://retina.cortext.net/#/graph/?url=https%3A%2F%2Fassets.cortext.net%2Fdocs%2Fa9c7b8a834a31f53a6c4367b4f67b2db
- Ce réseau reprend les clusters du réseau précédent, et lui associe les titres des articles.
- Domain map : Je n'ai pas pu trouver le lien pour le partager, mais je peux vous ajouter sur le projet Cortext.
N'hésitez pas à me communiquer votre identifiant pour que je vous ajoute aux projets Cortext, et que vous puissiez naviguer à l'intérieur.