Recherche:Recueil lexicologique à l’usage des Wiktionnaires
Ce projet est relatif aux apports qu’il est possible de tirer de l’utilisation d’un système de gestion de base de donnée alimenté d’un schéma et de données visant à servir de support partagé aux différentes déclinaisons linguistiques des Wiktionnaires. Pour cela il se propose
- de synthétiser les bénéfices escomptés de la mise en place d’une telle solution ;
- de spécifier les besoins remontés par les utilisateurs ;
- de modéliser une solution appropriée ;
- de documenter la mise en œuvre de cette solution.
Contexte d’apparition du projet
modifierCe projet émane d’abord d’un mécontentement du modèle proposé par l’équipe chargé du projet Wikidata4Wiktionary. Des retours et propositions alternatives ont été d’abord fait sur la page dédiée à l’extension. Ces retours sont arrivés tardivement dans le cycle de développement, ce qui peut expliquer en partie qu’ils n’aient – jusque là – pas été pris en considération. En revanche, la lecture de la page de discussion dédié au projet permet de constater que de nombreux retours bien antérieurs n’ont pas joui de plus de considération dans la solution proposée.
Ce projet vise donc à concevoir une solution prenant toutes les remarques déjà faites, et d’avantages. Il comprendra donc une série d’enquête visant à alimenter les cas d’utilisations auxquels devraient répondre une solution pertinente pour les wiktionnaristes.
Insuffisances du projet Wikidata4wiktionary
modifierL’objectif du présent projet n’est pas de dénigrer le projet Wikidata4wiktionary et les efforts qui ont été fait dans sa mise en œuvre. Cette section documente les points qui n’ont pas été pris en compte dans le modèle Lexeme. C’est-à-dire que le projet Wikidata4wiktionary pourrait lui même répondre au cahier des charges que se propose de définir le présent projet.
- Manque de souplesse : le modèle proposé impose un cadre théorique figé qui ne permet pas d’exprimer des désinscriptions analytiques concourantes
- Flou sur la volonté d’utiliser le contenu des wiktionnaire, cela comprend notamment un volet juridique, les données des wiktionnaires sont sous licence CC-by-sa. Importer ces données dans Wikidata demanderait à ce que l’espace de nom soit lié à la même licence, mais malgré plusieurs demandes en ce sens, aucune réponse clair ou volonté d’apporter une telle réponse n’a été apporté.
Enquêtes sur les besoins des wiktionnariste
modifierSpécifications
modifierBesoins
modifierLa tableau suivant reprend et complète les besoins exprimés dans la page de discussion du projet Wikidata4Wiktionary[1].
Résumé | Description | mots clés | exemples |
---|---|---|---|
Flexibilité des catégorisations morphosyntaxiques attachés à un vocable | Il existe de multiple manière de décrire un même vocable. Différentes catégories morphosyntaxiques seront privilégiés pour différentes paires de langues, et de multiples théories linguistiques peuvent conduire à des analyses distincts au sein d’une seule langue. | catégorisation,
flexibilité, morphosyntaxef |
|
Adaptabilité des données affichés | Tous les concepts linguistiques spécialisés applicables aux vocables ne sont pas souhaitable dans un article rédigé pour le grand public. | adaptabilité |
|
Permettre une recherche lexicale extensive, indépendante de la version linguistique du wiktionnaire | |||
Importer les données actuelles des wiktionnaires | Les données de chaque wiktionnaire doivent faire l’objet d’une extraction spécifique pour chaque version linguistique. De plus l’import des données doivent prendre en compte des situations de cohabitation de données conflictuels et pour les cas pertinents des processus de résolution journalisé. | exportation, réutilisabilité | éduire les difficulté d’extraction des données des wiktionnairesR |
Importer les données d’autres ontologies | Prévoir des mécanismes et de la documentation permettant de partager du code et des pratiques, fusionner d’autres ontologies | importation, réutilisabilité | |
Proposer des attributs distinct de définition, de glose et de sens | La définition tente de cerner un terme en une expression unique de manière compréhensive le terme, la glose et succincte et permet seulement à distinguer des termes homonymes, le sens correspond à une interprétation conventionnelle d’une lexie | discernabilité | |
Permettre de pointer directement sur un sens précis d’un terme, et dans les wiktionnaires, et dans des interfaces externes | discernabilité | ||
Permettre de réutiliser un même sens, une même définition dans plusieurs lexies | réutilisabilité | un nom commun féminin et son pendant masculin | |
Permettre de relier une phrase à un sens | Une signification déterminée peut-être, même au sein d’une même langue, exprimé de multiple façon. | exhaustivité | « personne allongé sur le sol » et « individu couché sur le plancher » sont deux expressions ayant globalement le même sens.« |
Permettre d’annoter des informations lexicales en précisant leur condition d’application et leur crédibilité | annotation | Ajout de synonymes et d’étymologies | |
Assurer qu’un terme ne réfère qu’à un seul sens | Le terme est une notion monosémique. Il peut se rapporter à plusieurs définitions, mais elles sont toutes unis par un même sens et un vocable de même étymologie. | discernabilité | |
Possibilité de faire des requêtes sur les entités | recherchabilité | ||
Permettre de rendre compte de l’arbitraire de la distinction langue/dialecte | De manière plus générale, le fait de rattacher un mot à une langue relève d’une relation de correspondance entre deux entités hautement abstraites. | adaptabilité, exhaustivité, inclusivité |
|
Permettre de rendre compte des spécificité régionales sans perdre l’unité morpho-sémantique | color ou colour
gasoline (american English) | ||
Prise en compte des translittération | Certaines langues utilisent concourament plusieurs scripts, comme le japonais.
Même en français, « je t’aime » et « je t’m » (transcription SMS) réfèrent au même vocable, de même que la transcription API « ʒə tɛm ». | ||
Prendre en compte la multiplicité des théories lexicologiques qui proposent des catégories et des propriétés dont l’application n’est valide que pour certaines langues, ou qui peuvent proposer des interprétations différents voir incompatibles pour une même entrée lexicale | L’espagnol à un "pretérito indefinido" et un "pretérito imperfecto", le néerlandais a un "onvoltooid verleden tijd" mais aucun des droits ne sont synonymes
Un préfixe n’a pas la même limite d’usage dans une langue agglutinante que dans une langue qui ne l’est pas. | ||
Liens avec les entrées relatives dans les autres projets Wikimédia | liens vers les articles wikipedia pertinents
génération automatique de citations depuis wikisource avec possibilité de discriminer les faux positifs et valider les cas pertinents inversement wikisource devrait proposer une fonctionnalité permettant de voir les définitions pertinent de chaque mot d’un texte | ||
Prendre en compte la multiplicité des choix éditoriaux en matière le représentation des vocables | transcription | Le wiktionnaire anglais encode les makafs, qui est un type de trait d’union hébreux par <־> (U+05BE). Le Wiktionnaire hébreux lui utilise le glyphe <-> (U+002D).
nikkudots (hébreux) coronis (grecque) En français l’apostrophe courbe est l’usage recommandé mais son absence sur la majorité des claviers du marché la fait souvent remplacé par l’apostrophe droite. Sur le Wikitionnaire francophone, c’est l’apostrophe courbe qui est utilisé | |
Rendre visible le fait que d’autres wiktionnaires ont des informations différentes ou supplémentaires sur un vocable | Lien de couleur différente si l’autre version linguistique du projet à une entrée correspondante, une définition correspondante
Indiquer le nombre de définitions et d’entrées pour le vocable correspondant dans les autres versions linguistiques | ||
Les wiktionnaires doivent rester le point d’entrée privilégié pour la saisie des données | |||
Possibilité de mettre de créer des liens vers d’autres entrées dans les définitions | Note : la description stocké peut ne pas contenir ces liens et laisser au soin de l’entrée wiktionnaire de rajouter ces liens, par exemple en substituant le passage concerné via le wikicode idoine | ||
Le workflow « éditer la page Wiktionnaire, modifier le wikicode, enregrister » doit rester valide, de même que la possibilité de modifier les articles avec des bots. | Les pages doivent être manipulables en tant que fichier texte brut, qui peuvent être sauvegardé et modifié en dehors de la wikiversité puis resoumis sous la même page | ||
Les langues accepté et de catégorie de mot ne doivent faire l’objet d’aucune restriction structurelle. | |||
Les descriptions devraient pouvoir être annotés de nuance interprétative à prendre en considération, notamment dans les cas ou un phénomène de traduction intervient | "ruka" does not cleanly map to "Hand" in German ("hand" in English), neither does "noga" map to "Fuß" ("foot"). Nor does the German "Hals" really translate to anything in English, it's a combination of "throat" and "neck". The map of body parts is in fact different in the different languages - it is not just different words for the same concepts. | ||
Le modèle ne doit pas présupposer la validité ou non d’un segment quelconque | Par exemple "D" peut selon les contextes être interprété comme une lettre de divers alphabets latin, le symbole d’un accord Ré majeur, ou encore un symbole mystérieux reliant des personnages du manga one piece[2] | ||
La structuration des données doit permettre de stocker tout type d’élément lexicologique | mot, morphe, morphème, locution, étymon… | ||
Permettre d’indiquer la syllabation et la césure usuel des mots quand cela est pertinent | |||
Intégrer des définitions multiples provenant de dictionnaires libres/du domaine public. | Le wiktionnaire devrait intégrer toutes les définitions fournis dans des sources libres. L’interface devrait permettre de filtrer les définitions par source. | ||
Cas d’utilisation
modifierAutres apports du projet
modifierLiens externes
modifier- https://www.wikidata.org/wiki/Wikidata_talk:Wiktionary
- https://en.wiktionary.org/wiki/Wiktionary:Beer_parlour#Wikidata_for_Wiktionary:_let.E2.80.99s_get_ready_for_lexicographical_data.21
- https://en.wiktionary.org/wiki/Wiktionary:Grease_pit
- https://en.wiktionary.org/wiki/Help:Glosses
- http://lu.is/blog/2016/09/12/copyleft-and-data-database-law-as-poor-platform/
- https://meta.wikimedia.org/wiki/Wikilegal/Database_Rights
- https://en.wiktionary.org/wiki/Wiktionary:Language_treatment
- https://www.wikidata.org/wiki/Wikidata:Wiktionary/Development/Proposals/2013-08/en
- https://fr.wiktionary.org/wiki/Projet:Coopération/Wikidata
- https://phabricator.wikimedia.org/T150842
- https://phabricator.wikimedia.org/T150841
- https://phabricator.wikimedia.org/T150516
- https://wikimania2017.wikimedia.org/wiki/Submissions/Bringing_lexicographical_data_to_Wikidata:_supporting_Wiktionary_and_beyond
- https://en.wiktionary.org/wiki/Wiktionary:Wikidata
- https://en.wiktionary.org/wiki/Wiktionary_talk:Wikidata
- Lecture et sauvegarde de données depuis un modèle ou un module scribunto
- TemplateData