Utilisateur:Lionel Scheepmans/BlocNote

https://www.dynamique-mag.com/article/partage-nouvel-eldorado-startup.9111

Comparaison avec d'autre mouvement

Au terme de cette présentation, il est à présent intéressant de comparer le mouvement Wikimédia à d'autre mouvement d'envergure international. Cela peut se faire par exemple avec le mouvement Greenpeace qui se développa autoure de l'ONG de même nom niveau de la répartition géographique par exemple

Tableau comparatif entre le mouvement Wikimédia et d'autres mouvement supporté par un ONG
	Date de création	Domaine
Wikimédia		Connaissance
Greenpeace		Écologie
Amnestie internationnale		Droit humain
Rotary International	1905	Service altruisme
Médecin sans frontière		Médecine

Carte des pays où Greenpeace opérationnel

États membres en 2013 de l'Union interparlementaire

Présence de l'Organisation internationale du Rotary dans le monde

Utilisation de TXM

modifier

Pourquoi la liste de diffusion Wikimedia comme corpus linguistique ?

Une des raisons pour lesquelles j'ai choisi la liste de diffusion de Wikmedia comme corpus est liée au fait que le mouvement de Wikimedia constitue la thématique principale de ma thèse de doctorat. Une autre raison fut la facilité de constitution du corpus par un copié collé des archives publiée sur le Net. Il me fut donc facile de constituer, mois par mois, des fichiers séparés au format.txt pour qu'il soient directement utilisables par le logiciel TXM. Un autre argument taille, c'est que les archives de cette liste de diffusion sont publiées sous licence CC-BY 3.0 license^[1], ce qui simplifie grandement les questions d'autorisation d'usage et de diffusions des informations contenues dans les archives.

Description de la liste de diffusion

La liste de diffusion de la communauté Wikimedia intitulée "Wikimedia-l"^[2] est un lieu de communication au sein mouvement Wikimédia entre différent acteur tel que la Wikimedia Foundation, ses chapitres et autres organisations affiliées, ses partenaires institutionnels, les contributeurs au sein des projets, etc.

Cette liste de diffusion peut, par exemple, être utilisée pour :

La planification des nouveaux projets ou initiatives au sein du mouvement.
Les questions d'organisation de la Wikimedia Foundation, des sections locales, d'autres organisations affiliés, etc.
Discuter de la mise en place des nouveaux chapitres locaux de Wikimedia.
Élaborer et évaluer des programmes d'octroi de subventions.
Électricité de planification
Planification des élections, des scrutins et des votes
Discussion sur les projets qui n'ont pas déjà une liste de diffusion
Trouver des moyens de collecter des fonds
Autres questions liées à Wikimedia

Description du corpus

Le corpus est constitué d'un dossier contenant X fichiers (un fichier par mois d'avril 2004 à avril 2018) pour un taille de X Mo et X mots.

TXM User Manual Version 0.7 ALPHA.

Pourquoi le logiciel TXM comme outil d'analyse ?

De la même manière que certaines personnes adhère au végétarisme et ne mangent pas de viande, je prétends pour ma part adhérer au mouvement 'libriste et refuse de "manger" ou plutôt de me faire manger par du logiciel propriétaire et donc d'utilisé exclusivement et autant que possible des logiciels libres tes qu'ils furent définis par Richard Stallman. Le logiciel TXM répondait à mes attentes à cet égard. De plus il est développé par une équipe de chercheurs français qui produisent une bonne documentation en français diffusée sur le site Internet du projet^[3] notamment sous forme d'un manuel^[4] tutorial vidéo^[5]. Enfin, le projet a une liste de diffusion^[6] et un Wiki^[7] qui me donnent la possibilité de recevoir en français le soutien de l'équipe TXM^[8] et des membres de la communauté.

Description du logiciel TXM^[9]

TXM est un environnement d'analyse de texte/corpus et d'analyse graphique gratuit, open-source, Unicode, XML & TEI compatible et basé sur CQP et R. Il est disponible pour Microsoft Windows, Linux, Mac OS X et comme portail web J2EE. Il prévoit.

Analyse qualitative

Concordances de modèles lexicaux basées sur le moteur de recherche plein texte CQP efficace et son langage de requête CQL
Listes de fréquence des motifs CQL pour n'importe quelle propriété de mot (type, lemme, pos...) grâce à l'intégration de l'intégration TreeTagger pour la lemmatisation et le tagging de pos.
Graphiques d'occurrence de motif CQL
Les modèles lexicaux sont exprimés dans le langage de requête CQL, basé sur les propriétés au niveau du mot et de la structure.
Navigation riche en édition de texte basée sur HTML avec des liens de tous les autres outils

Analyse quantitative

Analyse factorielle des correspondances
Spécificités constratives des mots
Classification hiérarchique
Analyse de mots cooccurrents ou de modèles lexicaux

Modèle de données du corpus

Indexe les mots et leurs propriétés ainsi que la structure hiérarchique des textes.
Répertorie les métadonnées externes ou internes des textes ou des locuteurs.
Permet la construction de différentes sous-corpores et partitions (pour l'analyse de structures de texte ou de groupes de mots)

Retour sur l'installation, l'importation et l'utilisation des fonctions

Avant TXM, j'avais utilisé très peu de logiciels textométriques et toujours de manière très ponctuelle. Se familiariser avec ce logiciel ne m'a pas semblé excessivement difficile, mais l'aurait peut-être été si je n'avais pas acquis auparavant quelques connaissances en analyse de corpus en linguistique. Sans cette formation préalable, j'aurais dû assimiler en même temps que la découverte du logiciel tout un ensemble de concepts tels que occurrence, lemme, tolken, etc. Ceci dit, au départ du manuel en français et avec l'aide de la communauté, il me semble tout à fait possible de partir de zéro dans l'utilisation de ce logiciel.

Au final, les seuls problèmes que j'ai rencontrés dans cette expérience ont été l'installation et l'utilisation du logiciel d'automatisation Treetagger, qui, contrairement au logiciel de traitement statistique R, n'était pas pré-installé dans TXM. Ces problèmes étaient liés à des erreurs de configuration de ma part et un autre problème probablement lié à un fichier téléchargé et corrompu. Ce problème a cependant disparu depuis la dernière version 0.7.9 du logiciel qui intègre automatiquement le logiciel Treetagger.

Il est à noter que le processus d'importation de mon corpus menant à la création d'un fichier XML contenant les informations de catégorisation et de lemmatisation a pris plus de trois heures sur un ordinateur de bureau ( i5 3.40 GHz 64 bits). A la fin du processus, une surcharge de ma RAM de 8 Go oblige l'ordinateur à utiliser l'espace d'échange sur le disque dur. Enfin, le dossier en format binaire du corpus produit en plus d'une heure de calcul, avait une taille de 6,5 Go et ne pouvait être chargé sur mon ordinateur portable faute d'espace disque alors que plus de 15 Go étaient disponibles.

Il me semble donc important de souligner qu'avant de se lancer dans l'analyse d'un corpus avec TXM, il est nécessaire de s'assurer que le matériel informatique est suffisamment puissant en fonction de la taille du texte. Autre exemple, après avoir créé deux partitions au sein de mon corpus, le démarrage du logiciel est passé de quelques secondes à près de cinq minutes.

Le logiciel m'a semblé relativement stable lorsque vous n'effectuez qu'un calcul à la fois. Face à la taille du corpus et à la puissance de mon ordinateur de bureau, certains processus peuvent atteindre des temps d'exécution élevés, voire excessifs. Lorsque le logiciel se bloque et que son arrêt doit se faire via le système d'exploitation de l'ordinateur, une partie du travail effectué avant l'arrêt peut être perdue. Il est donc conseillé de redémarrer l'application après avoir effectué un travail important.

Fonctionnalités de TXM utiles pour l'ethnographe

Une à une, nous discuterons ici des fonctionnalités offertes par le logiciel TXM, et de leur capacité à fournir des informations utiles à l'ethnographe. Pour chaque fonctionnalité utile, nous donnerons un exemple appliqué à l'analyse des archives de la liste de diffusion Wikimedia-l.

Édition

La fonction d'édition vous permet de parcourir l'ensemble du corpus en affichage html avec l'affichage d'une bulle d'information sur chaque mot indiquant sa catégorie lexicale. La navigation se fait fichier par fichier avec le nom du fichier comme en-tête de l'onglet et un menu contextuel par clic droit permet l'envoi d'un mot vers le concordancer. Sans quitter le logiciel TXM, cette fonction permet de parcourir l'intégralité du texte pour appréhender sa structure et lancer des recherches plus approfondie sur base de mots clefs choisis. Il est par exemple possible de parcourir facilement toutes les interventions d'un acteur que vous souhaitez suivre dans ses intervention au niveau de la liste de diffusion. Nous reviendrons plus tard sur la fonctionnalité du concordancier..

Lexique

Une analyse lexicale (liste des mots classés par fréquence) donne déjà de bonnes informations à l'ethnographe concernant les mots qui sont le plus souvent utilisés par les acteurs de la liste de diffusion, un chercheur peut par exemple obtenir des informations sur :

Les principaux sujets de discussion au sein de la communauté et les mobiliser dans les entretiens individuel semi-directif ;
Les membres les plus actifs de la liste de diffusion dans le but de choisir des personnes à interviewer ;
Les fournisseurs d'adresse courriel les plus utilisés dans le but de connaître les canaux de communication les mieux adapter pour entrer en contact avec les acteurs du mouvement.

Ressources théoriques

Interaction stratégique et partage des connaissances dans la liste de diffusion des développeurs KDE^[10].
Que peuvent nous dire les listes de diffusion OSS ? A Preliminary Psychometric Text Analysis of the Apache Developer Mailing List^[11].
Analyse de complexité des textes coutumostratiques^[12]
Aperçu du traitement du langage naturel^[13]
Manuel utilisateur français TXM^[14]

Papiers à explorer

Explorez, jouez, analysez votre corpus avec TXM^[15]
Analyse de la littérature anthropologique pourrait être un travail très intéressant en mobilisant par exemple l'archivage numérique fait par la plateforme ODAS^[16].
Texte à investiguer^{[B 1]}^{[B 2]}^{[B 3]}^{[B 4]}

Ressources externes

https://www.ortolang.fr/market/corpora/orthocorpus/v1.1#_blank

Notes du cours humanité numérique

modifier

Le droit d'auteur apparait avec l'imprimerie et le fait que le texte devient une source de profit. Avant le plagiat n'existait pas jusqu'au 18 eme siecle. La fontaine puise ses textes chez d'autres auteurs différence entre droit d'auteur et autorité c'est l'importance adopté à un texte lié à l'auteur. Parfois ligné faussement au nom d'un auteur connu. l'important est que le document soit reconnu et lu. Plus récemment auterité (emmanuel) auteureté : l'écrit appartient l'auteur et c'est lui qui doit être respecté pas le texte et le texte ne peut être changé. Avant l'imprimerie la production était liée à un mescenat et l'imprimerie Johny aliday n'est pas auteur mais interprête sa famille ne reçois rien. Arrivée du web 2.0 échange et collaboration devient la clef du système. Le Jazz utilise des mélodie sans auteur Licence CC ne fait objet d'aucun texte de loi. C'est un droit d'usage. Monopole des presses de la Sorbone de la publication ou reproduction d'un texte ancien et réclame des droits d'auteurs mais guerre juridique insoluble. Transposition du droit d'auteur dans les musés. Payer 50 € pour faire une copie d'un manuscrit. Vol d'auteureté pour raison lucrative. Voir la question des œuvre d'art qui appartienne au propriétaire qui l'a acheté. Distinction entre œuvre et support l'accès au support est monayé en fonction de son futur usage. Plus chère pour une publication publique ou sur internet. Google book ne donne accès qu'au livre qu'il ont numérisé eux-même. complet si libre de droit. Ne demande pas l'autorisation à l'auteur. Fait un scanne du livre trouvé dans une bibliothèque et le publie incomplet pour respecter le droit de reproduction et de citation. Voir avec Maxime. Voir Gallica autre Voir consortium typiquement français : Groupe de chercheurs financé par l'état pour centraliser le travail. Voir « Archives des ethnologues » ethnologia.hypotheses.org Humanum.hypotheses.org : liste de consortium par discipline ou type de source. Seul contrainte licence libre et open data. Belgique mal placé. peu de cours, pas de consortium, besoin d'interface humaine entre informaticiens et anthropologue. on refile le boulot de base de données aux informaticiens mais il manque quelqu'un qui discute avec l'informaticien.

Emancipation citoyenne

modifier

L'Émancipation Citoyenne se calcule selon la formule Émancipation = Mouvements Citoyens (E=mc²) ...

La réforme des systèmes politiques selon les principes de la démocratie directe, participative et Référendaire.
- Le tirage au sort des représentants citoyens au niveau politique où la démocratie directe n'est plus possible.
- L'instauration de règles de transparence dans les sphères publiques et politiques tout dans le respect de la vie privée de chacun.
- Le renforcement de la liberté déontologique de la presse par un financement citoyen collectif et direct exclusif permettant la diffusion, l'analyse et la critique des informations publiques et politique préalablement rendues transparente.
Le sevrage économique du citoyen par rapport aux systèmes financier et économie :
- La mise en place d'un revenu de base universel.
- La promotion et la mise en place d'un système financier et économie respectueux des êtres humains et autres êtres vivants.
- La promotion et la mise en place d'un système de marketing et publicitaires respectueux des êtres humains et autres êtres vivants.
- La promotion et la mise en place d'un système médiatique.
- Le lancement et la promotion d'alternatives permettant le libre accès au savoir, à la culture et à tout autres productions immatérielles.
- La réforme des droits d’auteurs et des systèmes de brevets en commençant par l'abolition des licences et des brevets sur le vivant et le logiciel.
Le respect de la diversité
- Le respect de la diversité naturel par la protection des équilibre écologique au niveau de l’ensemble des être vivants.
- La protection des diversités culturelles par le maintient de la paix et des droits humains entre les peuple qui composent l'humanité.
Les principes organisationnels fondamentaux
- Le mouvement est ouvert à tous citoyens sans distinction aucune et ne pourra se transformer en parti, association, ou tout autre institution.
- Le mouvement existe dans le seul but de répondre aux objectifs présenté ci-dessus ( démocratie, sevrage économique, respect de la diversité) et rien d'autre.
- Le mouvement veille au respect profond :
  - De la liberté d'expression.
  - Des être humains de toute situations sociales et de toutes cultures confondues.
  - Da nature en générale et tout êtres vivants en particulier.
- Le mouvement utilisera uniquement le logiciel MediaWiki dans le cadre des ses communications via le Net.

↑ Source : https://lists.wikimedia.org/mailman/listinfo/wikimedia-l
↑ Source : https://lists.wikimedia.org/pipermail/wikimedia-l/
↑ Projet Textométrie
↑ Manuel de TXM 0.7 FR, 2018-02-26
↑ Atelier d'initiation à TXM de Bénédicte Pincemin du 27 septembre 2012
↑ txm-users - TXM users mailing list - subrequest
↑ index[Le wiki de la liste txm-users]
↑ L'équipe TXM - Projet Textométrie
↑ Présentation - Projet Textométrie
↑ George Kuk, « Interaction stratégique et partage des connaissances dans la liste de diffusion des développeurs KDE », Science de la gestion, vol. 52, 2006-07, p. 1031-1042 (ISSN 0025-1909) [texte intégral lien DOI]
↑ Purchase : Que peuvent nous dire les listes de diffusion OSS ? A Preliminary Psychometric Text Analysis of the Apache Developer Mailing List
↑ Recherche:Analyse de complexité des textes coutumostratiques - Wikiversité
↑ « Outline_of_natural_language_processing&oldid=863062167 », Wikipedia, 2018-10-08
↑ Manuel de TXM 0.7 FR, 2018-02-26
↑ Explore, jouez, analysez votre corpus avec TXM | DHd-Blog
↑ https://www.odsas.net.

Erreur de référence : Des balises <ref> existent pour un groupe nommé « B », mais aucune balise <references group="B"/> correspondante n’a été trouvée