Analyses textuelles (M2 D2SN, 2024)
Cours de « Text mining » pour la promo 2024 du Master D2SN à l'UGE.
Responsable: Alexandre Hannud Abdo (@Solstag)
Général
modifierActivités
modifier- Chacun son cahier d'étude.
- Chaque semaine un objet ou une approche nouvelle.
- Une image à présenter à la fin de chaque séance, ou idée d'image puis image au début de la suivante.
Séance 1 (2024-03-18)
modifier- Théorie générale
- Modèles → Phénomène/Représentations → Mesure/Collecte → Donnée → Modèles phénoménologiques
- Analyses de textes et de symboles
- [Neurobiologie du langage →] Symbole (mot) → Morphosyntaxe (phrase) → Discours (texte-énonciation) → Sémiotique (interprétation) → Sociologie de la traduction (associations entre acteurs)
- L'association des cadrages ci-dessus produit une multitude d'approches phénoménologiques
- Sociologie de la traduction (TAR)
- « Théorie Acteur-Réseau »
- Acteurs humains et non-humains
- Consignes et activités
- Partage et questions
Séance 2 (2024-03-25)
modifier- Théorie générale
- Signifiants et acteurs sémiotiques : de la synonymie à l'ambiguïté aux formes plus subtiles de contextualisation, chaque interprétation produit un nouvel acteur.
- Signifiés et catégories analytiques non-linguistiques : espace géographique, temps physique, catégories culturelles etc.
- Possibilités d'analyse
- Symbole ∈ Discours ⇒ Modèles thématiques, réseaux de cooccurrence …
- Symbole × Discours ⇒ Modèles domaine-thématiques, …
- Symbole × Morphosyntaxe → Plongement lexical, fouille sémantique …
- Sociologie de la traduction ⇒ Réseaux « associologiques » d'acteurs, …
- …
Séance 3 (2024-04-02)
modifier- Sources données textuelles
- Web : archive.org
- Scientifiques : OpenAlex, WebOfScience
- Presse : Europresse, Factiva
- Littérature : Project Gutenberg
- …
- Traitement du texte
- En Python avec la bibliothèque Spacy
- Tokenisation: voir Tokenization.
- Identification de classe grammaticale (verbe, substantif, pronom etc): voir Part-of-speech tagging. Déjà comprise dans la tokenisation basée sur modèle de langage.
- Lemmatisation: voir Lemmatization. Avec l'identification de classe grammaticale on peut utiliser le rule-based lemmatizer.
- En Python avec la bibliothèque NTLK. More limited than Spacy, but still useful.
- En Python avec la bibliothèque Spacy
Séance 4 (2024-04-08)
modifierSéance de travail.
Théorie des probabilités
Contraste → Comptage/Signal → Information → ProbabilitéModèles stochastiques, comparaison de modèles
Séance 5 (2024-04-22)
modifierSéance de travail.
Séance 6 (2024-04-23)
modifierSéance de travail.
Séance 7 (2024-04-29)
modifierSéance de travail.
Séance 8 (2024-04-29)
modifierPrésentation d'un exemple :
- Télécharger notebook Jupyter ; mot de passe :
Braz.Cubas.1880
- La page du roman traité sur project Gutenberg