Sujet sur Discussion utilisateur:Ambre Troizat

Logiciel libre pour l’analyse textuelle fondé sur R : R.TeMiS

14
Ambre Troizat (discussioncontributions)

Bonjour Psychoslave

Dans la perspective de procéder à une analyse textuelle à partir des éditions sous Wikisource, j'avais (revé) relevé les informations ci-dessous sur R.TeMiS.

  • Connais-tu ce logiciel ?
  • Dans quelle mesure peut-il être utilisé avec les textes de Wikisource ?

Logiciel libre pour l’analyse textuelle fondé sur R : R.TeMiSSource : 2013 - Gilles Bastin, Milan Bouchet-Valat et Association française de sociologie (dir.), , Nantes (lire en ligne)

R est un langage informatique dédié aux statistiques et à la science des données. L'implémentation la plus connue du langage R est le logiciel GNU R.

« — du côté des données, la numérisation a conduit à un véritable «déluge» de textes disponibles à portée du clic de la souris (Hey & Trefethen, 2003), notamment dans le domaine des médias (bases de données structurées comme Lexis-Nexis ou Factiva...) — du côté des méthodes, l’analyse de contenu traditionnelle est de plus en plus remplacée par la statistique lexicale (text mining) mais l’offre logicielle a tout du «maquis» (Demazière & Brossaud, 2006), ce qui rend nécessaire un patient travail de défrichage et de choix préalable à toute analyse (Brugidou, et al., 2000; Jenny, 1996; 1997; Klein, 2001; Weitzman & Miles, 1995). »

Je te remercie de ton attention.

Psychoslave (discussioncontributions)

Je connais R de nom, et j'aurais su te le placer sous la case utilisation pour les statistiques, mais je n'ai jamais travaillé avec.

Actuellement sur ce plan, je suis plus intéressé par le langage Julia, mais bon là n'est pas le sujet.


Côté traitement automatisé des langages (TAL), aussi dit Natural Language Processing (NLP), c'est un des sujets qui me passionne, mais oui, c'est vaste.


Il faudrait m'en dire plus pour que j'estime si

  • je peux t'aider facilement avec les compétences que j'ai déjà,
  • s'il vaudrait mieux chercher quelqu'un d'autre, l'association peut certainement aider
  • ou au pire, s'il paraît pertinent que je monte en compétence sur le sujet, l'association pouvant aussi aider à cela

Au plaisir d'en apprendre plus sur le sujet. :)

Ambre Troizat (discussioncontributions)

Prenons les éditions du code noir (Voir <https://commons.wikimedia.org/wiki/Le_Code_noir_(France)>). Jusqu'à très récemment on ne connaissait qu'une seule version. Aujourd'hui on en sait plus. Mais comparer à l'ancienne n'est pas évident. D'abord, il faut unifier le lexique (Wikisource sait faire ou peut apprendre à faire), ensuite résoudre des problèmes de sémantiques. Enfin, traiter la question comme un linguiste doublé d'un historien. Même si on ne prend en compte que les éditions que je cite sur Commons, cela fait un sacré boulot.

Il me reste encore beaucoup à faire avant... Je pense qu'il est juste temps de se préoccuper de la question pour ne pas être obligée de corriger en permanence parce qu'on n'avait pas perçu les problèmes.

On pourrait commencer avec un corpus d'articles sur Saint-George. Le français est contemporain. Il y a peu d'écart entre les versions. Essentiellement sur la date de naissance et le nom du père (si le vrai père est cité quelque part...). Mes références bibliographiques sont encore sur Wikipédia avec le modèle:Ouvrage... Ma terreur !

Tu peux me dire que je prends le problème de travers.

Bonne soirée.

Psychoslave (discussioncontributions)

Coucou. Je ne saurais dire si tu prends le problème de travers, car j'ai du mal à me représenter ce que tu souhaites accomplir exactement.


Pourrais-tu me donner un exemple concret du type de tâche que tu fais manuellement et que tu souhaiterais automatiser ? Par exemple avec des liens vers des comparaisons entre deux versions d'une page, préférablement en commentant l'objectif sous-jacent et la méthodologie employé qui n'est pas visible dans cette présent.


N'hésite pas à me faire savoir si tu as besoin d'aide pour faire un lien vers un diff à l'aide de l'outil Spécial:Diff

Ambre Troizat (discussioncontributions)

Actuellement, et depuis que je travaille avec les projets Wikimedia, mon principal souci est la bibilographie. Il s'agit de tout mettre à plat. C'est ce que m'avait proposé mon directeur de thèse de l'époque (Jean Piel, Paris 7, décédé). Ma maîtrise cherchait à vérifier, avec les outils de l'historien, comment la mémoire de l'esclavage s'est maintenue à travers le temps. Ou bien, comment elle s'est effacée. Ce faisant, j'ai mis en évidence un type de personnage central : l'exclave. Contrainte par mes conditions d'existence et mes faibles ressources, j'ai aussi utilisé une méthode de travail : constituer un corpus, saisir ce corpus sur mon ordinateur. Le corpus était exclusivement constitué de documents en provenance de la Guadeloupe à l'époque de la Révolution atlantique. Au bout de ce travail la conclusion était que la mémoire n'avait pu se transmettre qu'à travers des lettrés et les ouvrages produits après 1848 car la population des prolétaires avait été complètement été renouvelée. C'était un nouvel esclavage et non pas une continuité. l'exclave était bien un personnage central.

Tout naturellement, mon DEA, avait pour objectif de décrire, définir l'exclave, sa fonction sociale, son rôle qui consiste à la fois à déconstruire la société du moment et à construire autre chose sur les ruines. Si je devais rédiger mon DEA aujourd'hui, je prendrais en exemple le couple Harry & Meghan et les conséquences de leur interview. En faisant la comparaison avec Saint-George. Voir cette image et celle-ci. , Saint-George est au service du Prince de Galles. Ici, il est honoré par la cour & l'élite anglaise. Dans cette scène, il est en posture d'exclave, tout comme dans celle-ci ou sur ce brevet. Tu as compris que l'exclave transcende les différences sociales, culturelles & politiques. Ouf ! Je viens de passer des des hypothèses aux certitudes. J'ai de quoi écrire un bel article. Je suis assez contente de mon DEA. D'autant plus que les étudiants & thésards de Jean Piel pratiquaient le travail collaboratif. Nous étions en 1992 quand j'ai soutenu.

Ma méthode reste aujourd'hui la même : créer un corpus. C'est ma bibliographie.

J'ai commencé avec l'article Saint-George que je dois mettre à jour et dont je dois récupérer l'appareil critique, la bibliographie et les notes. Je ne sais pas comment faire ça. Il faut mettre la bibliographie sur Wikidata.

Pour l'instant, je crée la bibliographie avec wikidata, je place par ordre chronologique sur Wikiversité. Le moment d'automatiser le processus n'est semble-t-il pas encore arrivé puisque je ne précisait pas les sujets des ouvrages sur Wikidata (sujet ou thème principal, (P921).). Donc, je dois reprendre chaque élément de la bibliographie pour corriger cela. Je ne pense pas que cela puisse se faire autrement.

Voilà une série statistique sur le thème de "slavery" (Voir ici). Quels seraient les résultats si on remplaçait "slavery" par "esclavage" ? Autrement dit, existe-t-il un biais de langue dans Wikidata ? Les anglophones contribuent-ils plus que les francophones ? Mais pour utiliser cet outil, j'aurais besoin de formation...

"faire un lien vers un diff à l'aide de l'outil Spécial:Diff"... Là, je m'envole sur Mars ! Oui j'aurais besoin d'aide si je savais à quoi cela peut me servir dans le processus d'analyse.

Merci de ta participation.

Constituons-nous déjà un laboratoire ?

Au plaisir.

Ambre Troizat (discussioncontributions)

@Psychoslave

Je viens de (re)trouver cette page.

Wikidata Query Service Tutorial

Pour l'instant, je voudrais tant mettre à jour mon travail de bibliographie en faisant disparaître le pages Lilo en attente. Puis arriver au bout de la collation XIXème siècle.

Psychoslave (discussioncontributions)

Merci pour le lien, ça à l'air chouette et vraiment pas à pas comme tutoriel. Image logo représentant un un smiley souriant

Ambre Troizat (discussioncontributions)

Mais, il faudra prévoir des séances de formation réalisées par un "sachant" (homme ou femme, c'est la qualité qui importe). Un peu comme le fait Noircir Wikipédia.

Psychoslave (discussioncontributions)

Wikimédia France est entrain de préparer un MOOC sur le thème Wikidata pour ce que j’ai pu entendre dire. Je ne sais pas si cela correspondra à ton attente.

Ambre Troizat (discussioncontributions)

Tout ce qui ira dans le sens d'une formation sera bienvenu. Mais, il faudra que les leçons soient accessibles. J'aime bien les vidéos de Ernest-Mtl pour Wikisource.

Psychoslave (discussioncontributions)

Quelles vidéos ?

Ambre Troizat (discussioncontributions)
Psychoslave (discussioncontributions)

C'est chouette, deuxième tutoriel intéressant de la semaine que tu me communiques 🙂

Ambre Troizat (discussioncontributions)

Voici quelque chose de très pratique

Créer un schéma pour montrer que la période médiévale est composée de trois sous périodes :

L'expression "période médiévale" unifie ces trois période. Elle coure sur les Ve à XVe siècle. Soit 10 siècles. Il est absolument indispensable de créer des sous périodes. Pour cela, on utilise le concept "Moyen Âge" élaboré au XIXème siècle plus un qualificatif.

Cela suppose que l'on modifie cette frise, par exemple : File:Histoire.png

Répondre à « Logiciel libre pour l’analyse textuelle fondé sur R : R.TeMiS »