Recherche:Recueil lexicologique à l’usage des Wiktionnaires

Recueil lexicologique à l’usage des Wiktionnaires

Toute réaction ou commentaire par rapport à ce travail de recherche sont les bienvenus sur cette page de discussion.

Cette page fait partie de l’espace recherche de Wikiversité et dépend de la faculté linguistique. Pour plus d'informations, consultez le portail de l'espace recherche ou rendez-vous sur l'index des travaux de recherche par faculté.


Ce projet est relatif aux apports qu’il est possible de tirer de l’utilisation d’un système de gestion de base de donnée alimenté d’un schéma et de données visant à servir de support partagé aux différentes déclinaisons linguistiques des Wiktionnaires. Pour cela il se propose

  • de synthétiser les bénéfices escomptés de la mise en place d’une telle solution ;
  • de spécifier les besoins remontés par les utilisateurs ;
  • de modéliser une solution appropriée ;
  • de documenter la mise en œuvre de cette solution.

Contexte d’apparition du projet

modifier

Ce projet émane d’abord d’un mécontentement du modèle proposé par l’équipe chargé du projet Wikidata4Wiktionary. Des retours et propositions alternatives ont été d’abord fait sur la page dédiée à l’extension. Ces retours sont arrivés tardivement dans le cycle de développement, ce qui peut expliquer en partie qu’ils n’aient – jusque là – pas été pris en considération. En revanche, la lecture de la page de discussion dédié au projet permet de constater que de nombreux retours bien antérieurs n’ont pas joui de plus de considération dans la solution proposée.

Ce projet vise donc à concevoir une solution prenant toutes les remarques déjà faites, et d’avantages. Il comprendra donc une série d’enquête visant à alimenter les cas d’utilisations auxquels devraient répondre une solution pertinente pour les wiktionnaristes.

Insuffisances du projet Wikidata4wiktionary

modifier

L’objectif du présent projet n’est pas de dénigrer le projet Wikidata4wiktionary et les efforts qui ont été fait dans sa mise en œuvre. Cette section documente les points qui n’ont pas été pris en compte dans le modèle Lexeme. C’est-à-dire que le projet Wikidata4wiktionary pourrait lui même répondre au cahier des charges que se propose de définir le présent projet.

  • Manque de souplesse : le modèle proposé impose un cadre théorique figé qui ne permet pas d’exprimer des désinscriptions analytiques concourantes
  • Flou sur la volonté d’utiliser le contenu des wiktionnaire, cela comprend notamment un volet juridique, les données des wiktionnaires sont sous licence CC-by-sa. Importer ces données dans Wikidata demanderait à ce que l’espace de nom soit lié à la même licence, mais malgré plusieurs demandes en ce sens, aucune réponse clair ou volonté d’apporter une telle réponse n’a été apporté.

Enquêtes sur les besoins des wiktionnariste

modifier

Spécifications

modifier

Besoins

modifier

La tableau suivant reprend et complète les besoins exprimés dans la page de discussion du projet Wikidata4Wiktionary[1].

Résumé Description mots clés exemples
Flexibilité des catégorisations morphosyntaxiques attachés à un vocable Il existe de multiple manière de décrire un même vocable. Différentes catégories morphosyntaxiques seront privilégiés pour différentes paires de langues, et de multiples théories linguistiques peuvent conduire à des analyses distincts au sein d’une seule langue. catégorisation,

flexibilité, morphosyntaxef

  • le terme lexie désigne une catégorie qui n’a pas d’équivalent exact en anglais
Adaptabilité des données affichés Tous les concepts linguistiques spécialisés applicables aux vocables ne sont pas souhaitable dans un article rédigé pour le grand public. adaptabilité
  • Le mode optatif devrait pouvoir être présenté comme subjonctif.
  • La terminologie peut varier en fonction de la région : conjuntivo au Portugal mais subjuntivo au Brésil
  • Permettre de moduler les langues prisent en comptes et les lemmatisation des lexèmes
Permettre une recherche lexicale extensive, indépendante de la version linguistique du wiktionnaire
Importer les données actuelles des wiktionnaires Les données de chaque wiktionnaire doivent faire l’objet d’une extraction spécifique pour chaque version linguistique. De plus l’import des données doivent prendre en compte des situations de cohabitation de données conflictuels et pour les cas pertinents des processus de résolution journalisé. exportation, réutilisabilité éduire les difficulté d’extraction des données des wiktionnairesR
Importer les données d’autres ontologies Prévoir des mécanismes et de la documentation permettant de partager du code et des pratiques, fusionner d’autres ontologies importation, réutilisabilité
Proposer des attributs distinct de définition, de glose et de sens La définition tente de cerner un terme en une expression unique de manière compréhensive le terme, la glose et succincte et permet seulement à distinguer des termes homonymes, le sens correspond à une interprétation conventionnelle d’une lexie discernabilité
Permettre de pointer directement sur un sens précis d’un terme, et dans les wiktionnaires, et dans des interfaces externes discernabilité
Permettre de réutiliser un même sens, une même définition dans plusieurs lexies réutilisabilité un nom commun féminin et son pendant masculin
Permettre de relier une phrase à un sens Une signification déterminée peut-être, même au sein d’une même langue, exprimé de multiple façon. exhaustivité « personne allongé sur le sol » et « individu couché sur le plancher » sont deux expressions ayant globalement le même sens.«
Permettre d’annoter des informations lexicales en précisant leur condition d’application et leur crédibilité annotation Ajout de synonymes et d’étymologies
Assurer qu’un terme ne réfère qu’à un seul sens Le terme est une notion monosémique. Il peut se rapporter à plusieurs définitions, mais elles sont toutes unis par un même sens et un vocable de même étymologie. discernabilité
Possibilité de faire des requêtes sur les entités recherchabilité
Permettre de rendre compte de l’arbitraire de la distinction langue/dialecte De manière plus générale, le fait de rattacher un mot à une langue relève d’une relation de correspondance entre deux entités hautement abstraites. adaptabilité, exhaustivité, inclusivité
  • une locution latine comme in situ sera employé dans des discours de multiples langues
  • des locuteurs réputés natifs d’une langue peuvent faire usage d’emprunts plus ou moins abondant
  • selon l’approche retenu une analyse pourra classifier sous Serbo-croate ce qu’une autre approche classifierait distinctement comme Serbe, Croate et Bosniaque, ou encore le fait de traiter le moyen français distinctement ou non du vieux français et du français moderne
Permettre de rendre compte des spécificité régionales sans perdre l’unité morpho-sémantique color ou colour

gasoline (american English)

Prise en compte des translittération Certaines langues utilisent concourament plusieurs scripts, comme le japonais.

Même en français, « je t’aime » et « je t’m » (transcription SMS) réfèrent au même vocable, de même que la transcription API « ʒə tɛm ».

Prendre en compte la multiplicité des théories lexicologiques qui proposent des catégories et des propriétés dont l’application n’est valide que pour certaines langues, ou qui peuvent proposer des interprétations différents voir incompatibles pour une même entrée lexicale L’espagnol à un "pretérito indefinido" et un "pretérito imperfecto", le néerlandais a un "onvoltooid verleden tijd" mais aucun des droits ne sont synonymes

Un préfixe n’a pas la même limite d’usage dans une langue agglutinante que dans une langue qui ne l’est pas.

Liens avec les entrées relatives dans les autres projets Wikimédia liens vers les articles wikipedia pertinents

génération automatique de citations depuis wikisource avec possibilité de discriminer les faux positifs et valider les cas pertinents

inversement wikisource devrait proposer une fonctionnalité permettant de voir les définitions pertinent de chaque mot d’un texte

Prendre en compte la multiplicité des choix éditoriaux en matière le représentation des vocables transcription Le wiktionnaire anglais encode les makafs, qui est un type de trait d’union hébreux par <־> (U+05BE). Le Wiktionnaire hébreux lui utilise le glyphe <-> (U+002D).

nikkudots (hébreux)

coronis (grecque)

En français l’apostrophe courbe est l’usage recommandé mais son absence sur la majorité des claviers du marché la fait souvent remplacé par l’apostrophe droite. Sur le Wikitionnaire francophone, c’est l’apostrophe courbe qui est utilisé

Rendre visible le fait que d’autres wiktionnaires ont des informations différentes ou supplémentaires sur un vocable Lien de couleur différente si l’autre version linguistique du projet à une entrée correspondante, une définition correspondante

Indiquer le nombre de définitions et d’entrées pour le vocable correspondant dans les autres versions linguistiques

Les wiktionnaires doivent rester le point d’entrée privilégié pour la saisie des données
Possibilité de mettre de créer des liens vers d’autres entrées dans les définitions Note : la description stocké peut ne pas contenir ces liens et laisser au soin de l’entrée wiktionnaire de rajouter ces liens, par exemple en substituant le passage concerné via le wikicode idoine
Le workflow « éditer la page Wiktionnaire, modifier le wikicode, enregrister » doit rester valide, de même que la possibilité de modifier les articles avec des bots. Les pages doivent être manipulables en tant que fichier texte brut, qui peuvent être sauvegardé et modifié en dehors de la wikiversité puis resoumis sous la même page
Les langues accepté et de catégorie de mot ne doivent faire l’objet d’aucune restriction structurelle.
Les descriptions devraient pouvoir être annotés de nuance interprétative à prendre en considération, notamment dans les cas ou un phénomène de traduction intervient "ruka" does not cleanly map to "Hand" in German ("hand" in English), neither does "noga" map to "Fuß" ("foot"). Nor does the German "Hals" really translate to anything in English, it's a combination of "throat" and "neck". The map of body parts is in fact different in the different languages - it is not just different words for the same concepts.
Le modèle ne doit pas présupposer la validité ou non d’un segment quelconque Par exemple "D" peut selon les contextes être interprété comme une lettre de divers alphabets latin, le symbole d’un accord Ré majeur, ou encore un symbole mystérieux reliant des personnages du manga one piece[2]
La structuration des données doit permettre de stocker tout type d’élément lexicologique mot, morphe, morphème, locution, étymon…
Permettre d’indiquer la syllabation et la césure usuel des mots quand cela est pertinent
Intégrer des définitions multiples provenant de dictionnaires libres/du domaine public. Le wiktionnaire devrait intégrer toutes les définitions fournis dans des sources libres. L’interface devrait permettre de filtrer les définitions par source.

Cas d’utilisation

modifier

Autres apports du projet

modifier

Liens externes

modifier
  1. https://www.wikidata.org/wiki/Wikidata_talk:Wiktionary
  2. http://fr.onepiece.wikia.com/wiki/Volonté_du_D