Recherche:L’émergence des banques de données posomégaliques: enjeux, et prospections pour le mouvement de la culture libre/Le cas de Wikidata

Début de la boite de navigation du chapitre
fin de la boite de navigation du chapitre
En raison de limitations techniques, la typographie souhaitable du titre, « L’émergence des banques de données posomégaliques: enjeux, et prospections pour le mouvement de la culture libre : Le cas de Wikidata
L’émergence des banques de données posomégaliques: enjeux, et prospections pour le mouvement de la culture libre/Le cas de Wikidata
 », n'a pu être restituée correctement ci-dessus.

Origines et objectifs de Wikidata modifier

Wikidata est un projet de base de données libre éditée de manière collaborative et hébergée par la Wikimedia Foundation. Placée sous licence Creative Commons Zéro[1], elle permet de centraliser des données utilisées par différents projets Wikimedia, comme Wikipédia[2]. Ce projet est lancé par Wikimedia Deutschland[2]. Présenté lors de la Semantic Tech & Business Conference en février 2012[3], son ouverture a été initialement annoncée au printemps 2013[2]. Le site a été ouvert aux premières contributions le 31 octobre 2012[4].

Le précédent paragraphe est issue de l’article Wikipédia, sa lecture complète permettra d’en apprendre d’avantage sur le projet.

De la gouvernance du projet et du choix de sa politique de licence modifier

Cette section se focalise sur le choix retenu pour le projet Wikidata en termes de licence, à savoir la CC-0 comme licence unique.

Contexte modifier

Globalement le discours informel autour du choix de CC-0 commence souvent par insister sur la nature factuelle des données traitées, pour enchaîner sur l’assertion que ce type de donnée ne peut-être soumis à droit d’auteur. Cet argument s’appuie effectivement sur une des limites de porté du droit d’auteur mais en confondant « base de données ayant pour objet de collecter des données visant la factualité » et « donnée factuelle isolée ». Et cet argument omet également que le droit d’auteur n’est pas le seule mécanisme légal qui confère un monopole d’exploitation sur un objet informationnel.

Certes des données ponctuelles et éparses spontanément générées ont peu de chance de voir une tentative d’imposer un monopole d’usage devant un tribunal sous la base du droit d’auteur. Cependant l’objectif de Wikidata est de créer une base de donnée structurée, compréhensive et en curation perpétuelle. Et une telle base de donnée a peu de chance de ne pas automatiquement générer des droits de monopole d’exploitation dans de nombreuses législations. D’ailleurs, si ça n’était pas le cas, il n’y aurait tout simplement pas lieu d’indiquer une licence.

Historique du choix de la licence de Wikidata modifier

La licence CC-0 fut présenté pour la première fois en avril 2012 sur la liste de diffusion du projet comme un choix pour le prototype lors de sa phase de test, permettant au besoin de passer plus tard à une autre licence[5]. Ce choix s’opère postérieurement aux débats de la communauté du projet libre Open Street Map, confronté à une problématique similaire de licence sur des données, qui avait abouti sur l’adoption de la licence libre copyleft ODbL[6]. Du côté de Wikida, tant sur Méta que sur la liste de diffusion[7], les interventions de l’époque proposant d’utiliser ODbL sont systématiquement restées lettres mortes. De plus des inquiétudes sur la proportion de droits qu’il est demandé de céder avec la CC-0 avait été d’emblée été remonté, certains n’hésitant pas à mettre en parallèle ces exigences avec une pratique esclavagiste[8]. Enfin, à ce moment l’équipe Wikidata reconnaît explicitement que les contenus qui sont publiés sous une licence CC-BY-SA comme les articles Wikipédia ne peuvent pas être importées dans une base de données sous licence CC-0, et elle indique clairement que le projet vise pas à constituer une base de donnée qu’il y ai recours à de tels importations[9]. Mi-décembre 2012 sur IRC il est stipulé qu’une requête sur le sujet a été soumise à des avocats et qu’une réponse devrait arriver sous quelques semaines[10]. Cependant aucune information n’a été communiquée par la suite sur le compte rendu de ces avocats[11]. La mention suivante du sujet de la licence de Wikidata sur ce même canal n’apparaît que mi-novembre 2013 pour acter que Wikidata est sous CC0[12].

Le 2 décembre 2015 paraît un billet intitulé Whither Wikidata? dans The Signpost, le journal anglophone des actualités wikimédiennes. Dans une réponse à ce billet le responsable originel de l’équipe de développement de Wikidata indique qu’il a été conclu que la meilleure licence pour le projet serait CC-0 suite à un processus de discussion avec le Deputy Director de la fondation Wikimédia d’alors[13]. La même réponse insiste sur le fait que la direction du projet suit la volonté des bénévoles[14], mais elle n’indique rien sur la volonté d’implication de la communauté Wikimédienne dans le choix de cette licence. Aux soupçons de l’auteur du billet sur des possibles conflits d’intérêt, ce directeur technique étant employé à la fois de Google et de Wikimedia Deutchland au moment où est écrit le billet, ce dernier indique qu’il n’était pas encore employé de Google au moment de ce choix[15]. Ceci afin de discréditer la thèse selon laquelle Google ou Microsoft auraient influé sur le choix de cette licence. Il dément au passage le fait que Microsoft ai participé au financement initiale du projet, alors que l’auteur avançait en fait pour sa part la participation pour moitié du montant total de l’Institute for Artificial Intelligence de Paul Allen, confondateur de Microsoft.

Toujours dans cette même réponse se trouve une référence à un billet[16] du répondant qu’il indique comme présentant son point de vue sur les licences libres en regard des bases de données[17]. À la lecture du document se révèlent des assertions sans nuance sur la présomption d’une absence totale de devoir en matière de réutilisation des données aux États-Unis, assertions en contradiction direct avec les analyses officielles de la fondation Wikimédia sur l’étendu du copyright sur les bases de données aux États-Unis[18]. Le document en question fait également transparaître une opinion négative de l’idée même d’attribution[19] à des bases de données. Les formulations présomptives n’empêche cependant pas l’auteur de reconnaître son incompétence en matière juridique[20]. Les arguments avancés dans ce second billet se basent considérablement sur une confusion entre des notions proches mais distinctes, comme présentées dans la section typologique du chapitre précédent.

Ce qu’il importe de garder à l’esprit dans la présente recherche, est que l’étendu du droit des personnes publiant des données n’est pas la même selon le type et la quantité de données. La diffusion de données classées secret défense par un État n’expose pas aux même problématiques légales que celles diffusées publiquement sans licence précise. Et la problématique est encore différente lorsque ces données sont diffusées par le même État sous une licence libre. De même les problématiques diffèrent aussi selon que des données soient réutilisées de façon ponctuelle ou en exploitant une portion substantielle d’une base.

Le second billet soutient que la licence CC-0 a plus un objectif de tranquilliser les esprits que de présenter un réel intérêt juridique[21]. Cette thèse est soutenu sur l’hypothèse que le droit s’applique quel que soit la nature et la quantité de données en jeux lorsque celles-ci sont réutilisées par un tiers qui exploite le contenu d’une base de donnée. De plus, en l’absence de licence qui les modules, les monopoles conférés par la loi s’appliquent dans leur extensivité la plus large. Comme cette thèse ne repose sur aucun avis d’expert ni aucune jurisprudence, ces hypothèses n’engagent que son auteur et devrait tout au plus mener à consulter des personnes compétentes. En l’absence de certitudes sur le sujet, l’utilisation d’une licence s’avère donc le minimum à prévoir pour prévenir des risques juridiques tout à fait plausibles. La probité ne saurait présenter une telle licence comme relevant principalement de l’outil purement rhétorique visant rassurer les esprits les plus pusillanimes. Et même une fois le choix de CC-0 acté, prétendre la possibilité de son application systématique en toute circonstance et en toute législation[22] n’est pas une garantie de légalité effective.

Cette thèse est soutenu dans un billet signé à titre personnel pour présenter la vision de son auteur, où elle n’engage personne à quoi que ce soit. La prise de décision d’une licence pour un projet ambitionnant un rôle central au sein de Wikimédia en revanche engage toute la communauté wikimédienne. Aussi pourrait-il être supposé que cette communauté soit consultée dans une telle prise de décision. Tout au moins, étant donné les valeurs d’ouverture et de transparence que le mouvement wikimédien place au cœur de ses valeurs. En effet, décider de la licence du projet Wikidata en dehors d’un processus ouvert conduisant à un consensus ne saurait être présenté comme conforme à ces valeurs. Hors la décision, qu’elle qu’en fut la modalité exact, n’a pas été prise de cette manière. Et parmi les quelques personnes ayant manifestement influé sur cette décision, la seule à s’être a priori exprimé publiquement sur le thème de la reconnaissance des droits sur les bases de donnée a proposé une thèse fortement partiale et dénégatoire. De plus il s’avère que cette personne est dès 2013[23] devenu employé de Google où elle officie actuellement dans l’équipe du Knowledge Graph[24] après avoir joué le principal rôle de direction au sein de l’équipe de Wikidata[25].

Quelques bribes d’explications sont également fourni en décembre sur les listes de diffusions internationales[26][27]. Dans la discussion il est notamment indiqué que le choix de la licence CC-0 s’est fait en avril 2012, au terme d’une discussion entre « plusieurs personnes ayant déjà travaillé dans l’open data depuis plusieurs années »[28][29], discussion elle même influencé par une longue discussion autour d’une pizza à Rome [sic][30]. L’essentiel de ces réunions ce seraient tenus en huit clos dans les locaux de Wikimedia Deutchland[31], en dépit de quoi les parties prenantes ont estimé qu’à l’époque « il n’existait pas encore de communauté » au près de laquelle lancer un débat pour obtenir un consensus sur la licence à adopter[32]. L’argument avancé pour défendre ce choix est la difficulté qu’engendrerait en termes de réutilisation tout autre type de licence. Cette argumentation n’indique pas pas en quoi ce choix de licence fait disparaitre la problématique du respect des licences des banques de données dans lesquels puise Wikidata en clamant les redistribuer en aval sous une licence souvent incompatible[33]. Y est également avancé une chronologie :

  • annonce de la licence en avril 2012 ;
  • première phase de déploiement de Wikidata en production en novembre 2012 ;
  • embauche du directeur technique de Wikidata par Google annoncé en janvier[34].

Le communiqué de presse de Wikimedia Deutschland relatif au financement du projet à hauteur de 1,3 millions d’euros, dont un quart provient de Google, est publié le 30 mars 2012[35]. C’est à dire quatre jours avant la date à laquelle le choix de la licence est annoncé publiquement.

D’autres échanges hors liste expriment des inquiétudes qui se veulent plus alarmantes. C’est par exemple le cas d’une personne ayant travailler en étroite collaboration avec l’équipe de Wikidata et ayant élaboré un mémoire de Master sur le thème Wikipédia en tant que monument virtuel: développer un nouveau modèle ontologique et sémiotique pour définir le patrimoine mondial[36]. Celle-ci conclut à des visés prioritairement guidées par les intérêts des grandes entreprises et des acteurs motivés par la cupidité, le pouvoir et le contrôle[37]. Cette même personne souligne qu’elle estime Wikidata inutilisable dans le cadre d’une recherche académique de par son absence de fiabilité des sources des données. Elle indique que des problèmes se posent, selon elle, à la fois sur le plan politique et technique[38].

Le 22 février 2018 une annonce lance un appel à débattre sur la possibilité d’ajouter le nouvel espace dédié aux assertions lexicographiques au sein de Wikidata sous licence CC-0, en effet les termes jusqu’alors en vigueur sur Wikidata indiquant qu’en dehors de l’espace de nom principal, tous les contenus sont publiés sous CC-by-sa-3.0-unported[39]. Des discussions s’en suivent, avec initialement une réponse globalement favorable des habitués de Wikidata, et une réponse défavorable des habitués des Wiktionnaires. Cependant certains contributeurs de Wikidata optent ou durcissent leur opposition avec l’évolution de la discussion, tandis qu’aucun argument ne semble faire modifier l’avis de contributeurs dans le sens inverse. Pour le 7 mars, alors que les débats sont toujours en cours, une nouvelle annonce est faite indiquant unilatéralement que la nouvelle extension sera déployé en avril et que l’espace de nom sera sous CC-0[40]. Autrement dit, dans le projet Wikidata l’avis de la communauté est sans influence sur des décisions de gouverance aussi critique que le choix de la licence, la décision étant laissé à la discrétion des personnes qui ont une position technico-fonctionnelle privilégiée.

Les enjeux socio-économiques de Wikidata modifier

Cette section se consacre à évaluer les implications et les conséquences du choix de la licence CC-0 pour Wikidata en tant que projet, pour ses contributeurs, et au-delà dans la réutilisation des données fournies par Wikidata par l’ensemble des projets Wikimédia et les acteurs tiers.

En effet, demander aux contributeurs d’abandonner autant de droit que possible peut susciter des craintes pour la dite communauté en termes d’impossibilité d’avoir un quelconque poids légal si un litige devait advenir, notamment avec des acteurs tiers. Plus largement cela peut affecter son devenir général.

Elle circonscrit aussi fortement les jeux de données qu’il est légal d’y importer, faisant courir des risques juridiques importants tant aux personnes qui y déverserait des données provenant d’une source aux données incompatibles qu’aux utilisateurs en aval qui supposeraient en toute bonne foi pouvoir les utiliser sans autres conditions que ceux énoncés par la licence CC-0.

C’est pourquoi il importe de mettre au clair :

  • les motivations qui ont conduit à création du projet et à la sélection de cette licence ;
  • de sonder le sentiment général de la communauté sur cette question ;
  • et d’évaluer les conséquences possibles à moyen et long terme.

Google a montré son intérêt pour le projet Wikidata en validant un important soutien financier avant même que le projet ne soit officiellement lancé. Aussi une présentation des motivations de cette acteur semble fort à propos, quelle que fut son influence effective sur le choix de la licence. Cette entreprise avait déjà racheté une compagnie porteuse d’un projet similaire à Wikidata, à savoir Freebase. Ce projet été initialement publié sous licence CC-BY-SA[41]. Ce qui montre que le géant du numérique avait pour sa part une confiance assez forte à l’applicabilité des termes de la licence à ce type de projet de base de données. Licence que Google utilise par ailleurs également pour diffuser les données de Ngram[42]. En tant que « propriétaire officiel » de la base de données, si Freebase s’était avéré un succès, ils auraient pu continuer à utiliser ces données au sein du Knowledge Graph et dans les encarts de résultat de recherche qu’ils proposent sans avoir à faire d’attribution, qui du reste aurait conduit vers un projet de Google. En revanche les autres acteurs du numérique, pour en faire usage, auraient dû citer les auteurs des informations extraient et une source vers Freebase, et donc auraient été légalement contraint à faire de la publicité pour un projet de Google et par extension pour Google lui-même.

Avec Wikidata, Google et les autres acteurs du numérique disposent d’une communauté active de curateurs bénévoles s’ingéniant à améliorer une base de donnée publiée sous licence CC-0, boostée par des imports massifs de données extraites de diverses sources dont d’autres projets Wikimedia qui sont eux publiées sous CC-BY-SA-3.0-undeed. Une communauté que Google n’avait pas précédemment réussi à rallier sous son hégémonie directe. Par le biais de Wikidata ce constat se modifie graduellement vers une possibilité d’utilisation sans contrepartie des œuvres produites et maintenues par cette communauté. Les autres acteurs du numériques bénéficient évidemment des mêmes possibilités légales, mais de toute évidence pas du tout des mêmes ressources et de la même prédominance en matière de visibilité.

S’ajoute à cela que l’équipe Wikidata indiquait initialement qu’elle dissuaderait l’importation de données des autres projets Wikimédia, tant pour éviter les problèmes de compatibilité de licence, que ceux de références circulaires entre Wikipédia et Wikidata. Leur plan initial indiquait que ce serait à la communauté de Wikidata d’alimenter la base de donnée à partir de sources exogènes aux projets Wikimédia. Cela étant, même une telle pratique est elle même légalement douteuse : la problématique n’est pas lié au fait qu’un transfert massif soit effectué par quelques automates ou une légion de contributeurs bénévoles agissant manuellement, c’est l’import massif qui est la source du litige, pas la méthodologie. Bien sûr référencer directement des sources primaires distincts pour attester d’assertions même en très grande quantité n’est pas en soit légalement problématique, c’est bien le fait de s’appuyer sur une compilation de données ayant déjà effectuer l’effort de récolte qui l’est.

Du reste, la prétention initiale d’une base de qualité partant de zéro c’est rapidement évaporée, et si une quelconque enquête de fond a été menée pour dissiper à minima les risques d’infraction légal à un tel revirement, une lecture exhaustive des messages posté depuis l’origine de la liste de diffusion wikidata-l comprenant le terme license dans leur intitulé et des premiers résultats relatifs à Wikidata dans les archives du Signpost n’ont pas permis d’en trouver trace. Google a là aussi joué un rôle, en reversant l’intégralité de sa base de donnée Freebase – publiée sous CC-BY-SA – dans Wikidata, sous CC0, avant sa fermeture en 2015. Dans ce dernier cas, la légalité du transfert est plausible en fonction des termes de service qu’impliquait la contribution à Freebase : l’utilisation d’une double licence conférant une cession de droit aussi intégral que possible exclusivement à Google est possible.

En revanche dans le cas général, seules des données du domaine publique ou licenciés sous CC-0 peuvent être légalement incluses dans Wikidata lorsque des extractions massives de données entre en jeux. Toutes les assertions de Wikidata possèdent un champ source, permettant d’indiquer la provenance. Sur les quelques 400 millions d’assertions que contient la base de donnée au début de mars 2018, 100 millions n’ont pas de référence, 50 millions proviennent de Wikipédia, et les 250 millions restants ont au moins une source extérieur en référence[43]. Sur le dernier cas, seul une analyse plus fine des diverses sources au regard de leur licence et des proportions extraites permettrait de statuer sur leur légalité. Les 100 millions sans sources sont autant de valeur douteuses tant sur leur plan descriptif que sur le plan juridique. Enfin les 50 millions d’assertions extraites de Wikipédia sont tout simplement en totale infraction avec les exigences de la licence couvrant le projet Wikipédia.

En tant que source de données, les autres projets sous licence libre copyleft, comme la majorité des projets Wikimédia, ne peuvent être légalement exploités sans créer des infractions légales. Cette problématique a été rapporté dès 2012 à la connaissance des instigateurs du projet[44]. En clair importer en masse dans Wikidata des données depuis un autre projet Wikimédia publié sous licence CC-by-sa, comme Wikipédia ou le Wiktionnaire, peut-être considéré illégal jusqu’à preuve du contraire sur la base des monopoles légales accordés à tout constituteur de base de données, droit qui prévaut tant que ses détenteurs ne les abandonne pas explicitement[45]. De plus certains n’hésitent pas à clamer qu’il s’agit d’une « évidente violation de la licence » en avancent notamment une nuance entre les faits qui individuellement ne sont pas soumis au droit d’auteur et les assertions rapportant ces faits que contiennent les articles Wikipédia[46]. Cette problématique est d’autant plus épineuse que le mode d’alimentation de Wikidata ne contient aucune contrainte technique en matière de traçabilité de l’origine des données, et de fait même lorsqu’un article Wikipédia est cité comme source il omet souvent de préciser la version de l’article[47].

Une infraction massive au droit d’auteur au sein du mouvement Wikimédia n’est malheureusement pas une première. En 2006 déjà la version francophone de Wikiquote avait été contraint de reprendre tout ses efforts à zéro, suite à une plainte pour violation du droit sui generis[48]. En 2008 des discussions furent menées autour d’une proposition de dissolution totale du projet au vue de ses problèmes juridiques latents, le consensus ayant abouti sur une conservation avec le reconnaissance de la nécessité de prendre le sujet au sérieux et de le régler par une politique de nettoyage des bases de données[49].

Sur un tout autre plan Techcrunch soutient que le fait que les données de Wikidata peuvent être réutilisées sans attribution par Google ou tout autre moteur de recherche pourrait amener à une diminution des consultations de Wikipédia par le truchement des quelques 20% de requêtes que le web sémantique pourraient directement résoudre au niveau des moteurs de recherche[3][50]. Moins de consultation, et donc d’autant moins d’attraction de potentiels nouveaux contributeurs. À terme cela pourrait donc participer à la dissipation de la communauté de contributeurs. D’autant que si rien n’est fait pour prévenir le blanchiment de licence massif pratiqué au sein de Wikidata, les moteurs de recherche pourraient intégrer à leur environnement propre des outils d’enrichissement d’une copie privée de Wikidata, en partant d’un taux d’audience direct déjà plus large et un taux de rétention alors encore accru.

Par ailleurs, d'après Mark Graham[51], la centralisation de données considérées comme « objectives » pourrait occasionner des problématiques jusque-là confinées aux articles de Wikipédia. Celui-ci explique que là où l'efficacité sera renforcée pour des données non polémiques comme « Tokyo est la capitale du Japon », les sujets plus polémiques comme la population d'Israël risquent de créer des débats localisés sur Wikidata, et dans une langue qui ne sera pas forcément comprise par les locuteurs du pays ou du sujet concerné en premier lieu[52][53][54].

L’introduction des fonctionnalités lexicographiques sous CC-0 faisant fi de débats en cours sur le choix de la licence génère de vives tensions au sein de la communauté wikimédienne. En effet, même parmi les contributeurs expérimenté de Wikidata se trouvent des personnes pour critiquer vertement la mise en place d’un projet concurrent au Wiktionnaire sous une licence incompatible[55]. Les contributeurs plus actifs sur les wiktionnaires n’expriment pas moins de ressentiments face à la création de cette situation d’antagonisme avec ce nouveau projet, situation imposé unilatéralement par l’équipe technique.

Si la tension est aussi vive dans ce cas, c’est probablement parce que le caractère antagoniste à un projet existant est plus manifeste. Cependant il serait mal avisé de supposer que le même problème n’aura pas à terme les mêmes conséquences sur les autres projets Wikimédia. Les projets visant à reconstruire des articles encyclopédiques à partir de Wikidata sont déjà disponible, et la qualité des résultats n’a que pour seul limite l’évolution de l’état de l’art en termes d’extraction de données et de génération de texte prosodiques couplé au volume de donnée incorporé dans le graphe sur lequel il s’appuie. Les recherches et les avancées ne manquent pas en la matière[56][57][58]. Wikidata est dors et déjà au cœur de projets visant à remplacer en partie ou en totalité des articles encyclopédiques :

Les efforts de Google pour inciter les personnes à utiliser sa propre plateforme Knol pour générer des articles encyclopédiques n’ont pas réussi à détrôner Wikipédia. En revanche les avancées de la firme en matière d’intelligence artificiel percent également dans la génération d’articles enyclopédiques[59]. La place de Wikidata dans ces prouesses techniques nécessiterait une analyse plus approfondie. Il ne serait cependant pas étonnant que les données issues du travail de curation de la communauté Wikidata, et des sources de données sur lesquelles elle s’appuie, entrent en jeux dans ces processus de génération automatisé.

Ce point a été soulevé à de multiples reprises, notamment sur les conséquences de l’absence de nécessité de citer la source[60]. Elles ne se limitent pas à l’attractivité des projets Wikimédia. Au-delà se pose la question de la traçabilité des données et de la possibilité pour les utilisateurs finaux de contrôler la fiabilités des informations qui leurs sont fournies. D’autant que si un acteur économique dispose déjà d’une hégémonie en termes de premier point de consultation numérique et que de surcroît son modèle économique repose sur le maintien de l’attention et de la traçabilité des actions de ses utilisateurs.

En l’état il n’existe aucune assurance que des imports massifs de données dans une base de donnée CC-0 à partir de sources sous des licences incompatibles soient légales. Au contraire les analyses d’une telle pratique renvoie plutôt à des affirmation d’illégalité[61][62][63][64].

Les sources des données ayant alimenté Wikidata modifier

Cette section se focalise sur les sources des données importées dans Wikidata, et la légalité de ces imports.

 
 
 
Évolution du nombre d’éléments, de déclarations et de des référénces afférantes[65]
Nombre d'éléments Déclartion Déclaration avec une référence adéquate Déclarations avec une référence inadéquate
juillet 2014 15,685,743 40,087,646 12.75% 43.62%
juillet 2015 18,308,081 65,993,797 17.69% 30.51%
 
 
 
 
 
 
 

Problématiques modifier

La plus forte inquiétude que peut générer l’utilisation exclusive de la licence CC0 pour le projet Wikidata concerne la vitalité de la communauté wikimédienne.

En effet, plus sa base de données grossira, notamment en s’alimentant des documents des autres projets sous licence copyleft de l’écosystème wikimédien, plus les acteurs externes pourront se passer de ces autres projets. Ceci pourrait favoriser la baisse de la visibilité de ces autres projets. Cela pourrait donc contribuer à défavoriser la vitalité de ces projets qui n’y perdraient pas seulement des lecteurs mais également de potentiels contributeurs et donateurs. Le caractère hypothétique de ces scénarios ne repose pas uniquement sur des spéculations ad hoc. Par exemple l’impact du knowledge graph de Google sur la consultation de Wikipédia est un sujet déjà longuement débattu[66][67][68][69][70]. Hors cette base de donnée utilise entre autre Wikidata, projet dont le développement initiale à bénéficier d’un financement substantiel de la firme à but lucratif.

Cet effet de rétroaction négative sera d’autant plus conséquent à mesure que Wikidata absorbera d’avantage de données inférables depuis les documents d’autres sources. Hors c’est exactement ce que vise à réaliser des projets s’appuyant sur Wikidata comme Wikipedia Knowledge Graph with DeepDive.

Cette problématique est de plus renforcée par les progrès de l’état de l’art en matière de rédaction prosodique automatisée. De fait il existe dors et déjà l’extension ArticlePlaceholder, faisant suite à un projet de recherche dédié[71]. qui vise à générer des articles Wikipédia à partir des données de Wikidata. Si le précédent projet peut être présenté comme une chance pour les projets Wikimédia, il faut remettre cette possibilité de générer des articles en prose dans un contexte plus général. Cela signifie également que les données de Wikidata pourront servir à d’autres acteurs pour générer ce type d’article, sans jamais avoir à citer leur provenance – si rien n’est fait pour exiger la traçabilité des sources et le respect de leurs licences lors des imports massifs qui y sont effectués.

Le manque de traçabilité des sources des données est conjoint à la problématique de l’absence du suivi des licences correspondant à ces sources. Il est techniquement possible d’associer à chaque entrée de Wikidata une source[72], mais cela n’est pas obligatoire. De plus cette référence n’inclus pas d’attribut permettant de renseigné la licence de la source[73]. Cela empêche par exemple d’importer des données d’Open Street Map dans Wikidata en respectant les termes de l’ODBl, alors qu’il s’agit d’une demande courante de la communauté[74][75].

Enfin les contributeurs ne peuvent pas choisir l’ensemble de licences libres sous lequel il souhaite publier leurs contributions, à l’instar de ce que propose déjà Wikimédia Commons. Cette possibilité a pourtant été suggéré dès 2012[76]. Contrairement à l’un des arguments avancés contre cette proposition, cela n’empêcherait en rien la création de données dérivées du fait de licences incompatibles : au contraire il serait possible de facilement filtrer les données par licences compatibles, les possibles incompatibilités ne seraient pas introduites par une telle démarche, mais seulement rendu plus visibles.

Solutions envisageables modifier

Les problèmes mentionnés dans les sections précédentes nécessitent une prise en compte sérieuse et l’application d’une solution satisfaisante. Ce chapitre se consacre à l’exposition de solutions possibles à ces problématiques et ébauche les démarches nécessaires à leur mise en œuvre.

Produire un dossier solide sur les limites légales à l’import massif de données modifier

Afin de lever tout doute sur la légalité ou l’illégalité des imports massifs telles qu’ils sont actuellement réalisés au sein de Wikidata, il serait judicieux de constituer un dossier solide réalisé par des experts du domaine et indiquant de façon clair les limites que devrait respecter les projets faisant des extractions de données massive ou fréquente pour ne laisser aucun doute sur la légalité des activités conséquentes.


Informer et obtenir un consensus de la communauté sur ces problématiques de licence modifier

La licence CC-0 comme unique licence de Wikidata étant un enjeux manifeste pour la pérennité du mouvement Wikimédien, celui-ci devrait être aussi largement que possible informé sur ces risques et les origines du choix de cette politique. En retour la communauté devrait décider par consensus de poursuivre avec cette politique de licence unique en CC-0 ou d’adopter une autre approche.


Passer par jugement officiel auprès d’autorités compétentes modifier

Pour tester la validité d’une hypothèse, le mieux serait encore de la tester concrètement. Plutôt que d’attendre une plainte par un acteur exogène au mouvement wikimédien, une plainte entre parties endogène pourrait être envisagé. De cette manière les parties prenantes aux procès pourraient en amont s’accorder limiter les conséquences possibles pour le mouvement wikimédien, quelle que soit l’issu du procès.

Outre la clarification pour les pratiques internes, cela répondrait également à une attente de certain wikimédiens en termes de mise en application du respect du droit d’auteur[77].

Modifications techniques modifier

Renseigner les données de licence comme qualificatif modifier

Toutes les données de wikibase peuvent se voir adjoindre des qualificatifs. Ceux-ci permettent de fixer une valeur pour un prédicat donnée. Par exemple il est possible d’ajouter un qualificatif date de publication. Il existe notamment un prédicat licence. Mais celui-ci semble être destiné uniquement aux entrées relative à une œuvre. Par exemple il est possible de documenter un élément dédié à une œuvre qui aurait la fondation Wikimédia comme thématique et qui serait sous licence libre. Il est donc possible d’indiquer que l’œuvre elle même est sous licence libre, mais les éléments créés en reprenant les informations indiquées dans cette ouvrage ne sont pas elles mêmes des œuvres et ce qualificatif ne leur est pas destiné. Pour mettre en œuvre cette solution, il faudrait donc ajouter un prédicat « donnée issue d’une œuvre sous licence », ou une description similaire.

Cette solution à l’avantage de ne pas nécessiter de modifier le schéma de la base de donnée.

En revanche il conviendrait de mettre à jour l’interface de Wikibase. Celle-ci prétend en effet que la publication de la donnée sur wikibase la fait nécessairement basculer sous licence CC-0[78]. Or il s’agit là d’une exigence que l’utilisateur n’est pas nécessairement à même de consentir, puisqu’à moins d’être lui même l’auteur de l’œuvre originale, il ne saurait abandonner des droits dont il n’est pas le bénéficiaire. Il s’agit là d’une problématique similaire à celle qui rappel qu’il est illégale le téléversement d’images CC-BY-SA sur Facebook. Il suffirait donc de retirer cette indication, qui du reste est au mieux douteuse, et sauf preuve du contraire, constitue une probable incitation à des actes illégaux, tout au moins lorsqu’elle est suivi à grande échelle.

Intégrer la gestion des licences des source modifier

Une autre solution simple claire et facile à mettre en œuvre serait d’ajouter un champ champ licences aux attributs des entrées Wikibase, l’extension logiciel utilisé pour faire fonctionner Wikidata. Une fois ce champ ajouté, il resterait à le renseigner pour chaque entrée existante.

Cela diffère un peu de la solution précédente. D’abord elle nécessite une modification du schéma de la base de données. Cette solution rendrait le requêtage et la manipulation des données en fonction de cet attribut d’autant plus simple. Elle serait aussi plus cohérente avec le fait d’avoir un attribut dédié pour les références.

Autre avantage, l’ensemble de la base de données pourra héberger des agrégats dont les sources sont couvertes par des licences hétérogènes, plutôt que de se limiter aux licences CC-0. La responsabilité de l’utilisation et du remixage des données étant alors délégué aux utilisateurs finaux. Rien n’empêcherait cependant de fournir des outils bien intégrés pour sélectionner des agrégats aux licences compatibles.

Permettre aux utilisateurs de choisir leurs licences modifier

De plus, en complément, la solution précédente permettrait de facilement implémenter le choix à chaque utilisateur sur l’ensemble des licences libres sous lesquels il accepte de diffuser ses publications ne se basant pas sur une source tierce.

Ainsi à l’instar de Wikimedia Commons, ce serait l’auteur de chaque contribution originale qui déciderait des licences sous lesquels ses contributions peuvent être réutilisés. Un ensemble par défaut pourrait être associé à chaque compte, voir un sous-ensemble rendu obligatoire pour assurer la réutilisabilité des données dans les autres projets Wikimédia, donc à minima la CC-BY-SA-3.0-undeed.

Notes et références modifier

Documents externes relatifs au sujet modifier

Licence modifier

  1. https://query.wikidata.org/copyright.html
  2. Public licenses and data: So what to do instead? – Luis Villa: Open Law and Strategy
  3. http://spatiallaw.com/Uploads/ODbL_and_OpenStreetMap__Analysis_and_Use_Cases_.pdf
  4. https://meta.wikimedia.org/wiki/IRC_office_hours/Office_hours_2013-01-22
    1. Resolution:Guidelines on potential conflicts of interest
    2. Wikimedia community input requested for conflict of interest guidelines, Geoff Brigham, Wikimedia Foundation
  5. https://lists.wikimedia.org/pipermail/wikidata//2012-April/thread.html#146
  6. https://lists.wikimedia.org/pipermail/wikimedia-l/2017-October/089049.html
  7. https://www.linuxinsider.com/story/84903.html
  8. https://meta.wikimedia.org/wiki/Talk:Wiktionary/Tremendous_Wiktionary_User_Group#Afterwards_comments
  9. https://en.wikipedia.org/wiki/Wikipedia_talk:Wikipedia_Signpost/2015-07-22/In_the_media#Working_for_free
  10. https://wiki.creativecommons.org/wiki/Data
    1. Notamment https://wiki.creativecommons.org/wiki/Data#Frequently_asked_questions_about_data.2C_generally
  11. https://lists.wikimedia.org/pipermail/wikidata/2014-September/004541.html
  12. Wikipedia:Close paraphrasing couvre un sujet annexe, mais se concentre sur le droit d’auteur, et n’a donc que peu d’intérêt pour le présent projet.
  13. https://en.wikipedia.org/wiki/United_States_v._Swartz
  14. https://en.wikipedia.org/wiki/Computer_Fraud_and_Abuse_Act
  15. https://lists.wikimedia.org/pipermail/wikidata/2016-October/009708.html
  16. https://www.wikidata.org/wiki/Wikidata:Project_chat/Archive/2015/11#Reliable_Bot_imports_from_wikipedias.3F
  17. https://lists.wikimedia.org/pipermail/wikimedia-l/2015-November/079863.html
  18. https://meta.wikimedia.org/wiki/Wikipedia_as_the_front_matter_to_all_research#Building_the_sum_of_all_human_citations
    1. https://www.youtube.com/watch?v=mB_oexqz8pA&feature=youtu.be&t=1499
    2. https://www.slideshare.net/dartar/building-the-sum-of-all-human-citations
  19. https://lists.wikimedia.org/pipermail/wikidata/2015-December/007768.html
    1. https://lists.gt.net/wiki/foundation/656308#656308
      1. https://lists.wikimedia.org/pipermail/wikidata/2015-December/007805.html
  20. https://en.wikipedia.org/w/index.php?title=Template_talk:Infobox_medical_condition&oldid=694149715#Another_reform_proposal_-_split_infobox_into_.22human_readable.22_and_.22non_human_readable.22_and_call_from_Wikidata
    1. http://sulab.org/2015/10/poof-it-works-using-wikidata-to-build-wikipedia-articles-about-genes/
  21. https://www.wikipathways.org/index.php/WikiPathways:CC0_Announcement
  22. http://www.bnf.fr/fr/professionnels/principes_droit_auteur.html
  23. T178210 Provide Legal comment on Commons:Deletion requests/Data talk:Kuala Lumpur Districts.map concerning derivates from OSM acceptability in Data namespace
  24. Proposal to include non-CC0 licenses for the Data namespace
  25. Option libre Du bon usage des licences libres Benjamin Jean
  26. Livre blanc sur l'ouverture des données publiques
  27. Le statut juridique des données de la recherche : entre droit des bases de données et données publiques
  28. IN Content Law: 101: The Protection afforded to Facts and Data
  29. Wikilegal/Lexicographical Data
  30. Automatically Generating Wikipedia Info-boxes from Wikidata
  31. [Wikidata] About OCLC and DBpedia Links
  32. What do Wikidata and Wikipedia Have in Common? An Analysis of their Use of External References
  33. Unsourced, unreliable, and in your face forever: Wikidata, the future of online nonsense
  34. A Glimpse into Babel: An Analysis of Multilinguality in Wikidata
  35. Freedom versus Standardization: Structured Data Generation in a Peer Production Community
  36. Provenance Information in a Collaborative Knowledge Graph: an Evaluation of Wikidata External References
  37. Knowledge Acquisition from a Collaboratively Generated Encyclopedia
  38. https://meta.wikimedia.org/wiki/Talk:Terms_of_use/Creative_Commons_4.0#General_support_and_opposition

Sources des imports modifier

  1. https://www.wikidata.org/wiki/Q18608359
    1. https://www.wikidata.org/wiki/Property:P143
  2. https://grafana.wikimedia.org/dashboard/db/wikidata?orgId=1
    1. https://grafana.wikimedia.org/dashboard/db/wikidata-datamodel-references?refresh=30m&orgId=1
  3. https://www.wikidata.org/wiki/Wikidata:Statistics
    1. https://www.wikidata.org/wiki/Wikidata:Statistics/Wikipedia/Type_of_content
  4. https://www.wikidata.org/wiki/Wikidata:Data_Import_Guide
  5. https://www.wikidata.org/wiki/Wikidata:Requests_for_comment/Improve_bot_policy_for_data_import_and_data_modification
  6. https://www.wikidata.org/wiki/Wikidata:Wikipedia
  7. https://www.wikidata.org/wiki/Wikidata:Requests_for_comment/Sourcing_requirements_for_bots
  8. https://www.wikidata.org/wiki/Wikidata:Requests_for_comment/DBpedia_import_process
  9. https://www.wikidata.org/wiki/Wikidata:Pywikibot_-_Python_3_Tutorial/Gathering_data_from_Arabic-Wikipedia
  10. https://www.wikidata.org/wiki/Wikidata:Requests_for_comment/Source_items_and_supporting_Wikipedia_sources
  11. https://www.wikidata.org/wiki/Wikidata:Requests_for_permissions/Bot/SamoaBot_26
  12. https://www.wikidata.org/wiki/Wikidata:WikiProject_Books
  13. https://www.wikidata.org/wiki/Wikidata:Requests_for_permissions/Bot/SLiuBot_2
  14. https://www.wikidata.org/wiki/Wikidata:WikiProject_Filming_Locations#Import_from_Wikipedia
  15. https://www.wikidata.org/wiki/Wikidata:Property_proposal/wikimedia_revision_identifier
  16. https://www.wikidata.org/wiki/Wikidata:WikidataCon_2017/Notes/Data_import:_An_overview_of_the_current_system,_and_idea_exchange_for_the_future_direction
  17. https://www.wikidata.org/wiki/Wikidata:WikiProject_Modernisme#Locate_databases_with_useful_data_and_import.21
  18. https://www.wikidata.org/wiki/Wikidata:OpenStreetMap#Linking_from_Wikipedia_to_OSM.2C_using_Wikidata_identifiers
  19. https://www.wikidata.org/wiki/Wikidata:Tools/Gadgets
  20. https://www.wikidata.org/wiki/Wikidata:Requests_for_permissions/Bot#SaamDataImportBot
  21. https://www.wikidata.org/wiki/Wikidata:WikiProject_Source_MetaData
  22. https://www.wikidata.org/wiki/Wikidata:WikiProject_Datasets
  23. https://www.wikidata.org/wiki/Wikidata:Bot_requests/Archive/2015/06#Import_dates_from_Wikipedia_.28P570.29
  24. https://www.wikidata.org/wiki/Wikidata:Flemish_art_collections,_Wikidata_and_Linked_Open_Data/Whitepaper#Wikimedia.2C_Wikipedia_and_Wikidata
  25. https://www.wikidata.org/wiki/Wikidata:Data_donation
  26. https://www.wikidata.org/wiki/Wikidata:Bot_requests/Archive/2014/10#Import_Persondata_from_English_Wikipedia
  27. https://www.wikidata.org/wiki/Wikidata:WikiProject_Occupations_and_professions/Bots
  28. https://www.wikidata.org/wiki/Wikidata:EveryPolitician/Documentation/Tools/Harvest_Templates/Pakistan#Case_study:_Importing_dates_of_birth_for_Pakistani_Members_of_the_National_Assembly_2013-18_from_English_Wikipedia_to_Wikidata_using_Harvest_Templates
  29. https://www.wikidata.org/wiki/Wikidata:Coordinates_tracking
  30. https://www.wikidata.org/wiki/Wikidata:Requests_for_permissions/Bot/VIAFbot/Meeting_agenda
  31. https://www.wikidata.org/wiki/Wikidata:Property_proposal/Person_ID_on_Radio_Radicale
  32. https://www.wikidata.org/wiki/Wikidata:Requests_for_permissions/Bot/Emijrpbot_7
  33. https://www.wikidata.org/wiki/Wikidata:Project_chat/Archive/2013/07#Source_as_imported_from_wikipedia
  34. https://www.wikidata.org/wiki/Wikidata:Requests_for_comment/Findagrave_removed_as_a_source_for_information
  35. https://www.wikidata.org/wiki/Wikidata:Requests_for_permissions/Bot/SamoaBot_32
  36. https://www.wikidata.org/wiki/Wikidata:WikiProject_Modernisme/infoboxes
  37. https://www.wikidata.org/wiki/Wikidata:Requests_for_permissions/Bot/Kompakt-bot_2
  38. https://www.wikidata.org/wiki/Wikidata:Requests_for_permissions/Bot/VIAFbot_2
  39. https://www.wikidata.org/wiki/Wikidata:Requests_for_permissions/Bot/FischBot_4
  40. https://meta.wikimedia.org/wiki/Grants:IEG/StrepHit:_Wikidata_Statements_Validation_via_References/Midpoint

Fiabilité modifier

  1. http://openpreservation.org/blog/2016/09/30/wikidata-as-a-digital-preservation-knowledgebase/

Références modifier

  1. Wikidata – Introduction – Qu'est-ce que cela signifie ?.
  2. 2,0 2,1 et 2,2 Julien L., « Wikidata veut faciliter la mise à jour de Wikipédia », High-Tech, sur Numérama, .
  3. 3,0 et 3,1 (en) Sarah Perez, « Wikipedia’s Next Big Thing: Wikidata, A Machine-Readable, User-Editable Database Funded By Google, Paul Allen And Others », sur TechCrunch, .
  4. (en) « Wikimedia launches Wikidata and reports on Wikipedia zero », sur The H open, .
  5. So do I understand it correctly that during development and testing, we can can go with CC-0  [sic], and later relicense to whatever seems suitable, which is possible with CC-0 [sic]?, Denny Vrandečić, 3 avril 2012, https://lists.wikimedia.org/pipermail/wikidata//2012-April/000185.html
  6. (en) « Is CC the right license for data? », sur meta.wikimedia.org (consulté le 26 novembre 2017) : « The OpenStreetMap-Community realised after several years, that the CC license doesn't fit for data very well and therfore switches to a new license right now (the ODbL), which they elaborated together with some lawyers. »
  7. [Wikidata-l] Is CC the right license for data?[null] avril 2012
  8. As CC0 requires users to renounce to some of their fundamental rights (moral rights, privacy rights), CC0's philosophy is similar with slavery. These rights are inalienable. By promoting the alienation of inalienable rights, the Creative Commons Foundation is on a very slippery slope, providing for the domination of human beings by trademarks, whose rights are upheld, while human beings are left with no tool to defend themselves. – Teofilo Ibid
  9. « Alexrk2, it is true that Wikidata under CC0 would not be allowed to import content from a Share-Alike data source. Wikidata does not plan to extract content out of Wikipedia at all. Wikidata will provide data that can be reused in the Wikipedias. » – ibid Denny Vrandečić qui s’exprime alors au nom de l’équipe de Wikidata en sa qualité d’employé de Wikimedia Deutchland et directeur du projet
  10. [18:18:22] <Marco74> do we have some answers concerning the questions about licences [18:18:35] <Denny_WMDE> no, we didnt get answers yet from the lawyers [18:18:47] <Denny_WMDE> it will probably take a few more weeks (en) « IRC office hours/Office hours 2012-12-18a - Meta », sur meta.wikimedia.org (consulté le 26 novembre 2017)
  11. Tout au moins un recherche extensive dans les journaux de ce même canal et les archives de la liste wikidata-l n’ont pas permis de trouver trace d’une telle publication.
  12. (en) « IRC office hours/Office hours 2013-11-13b - Meta », sur meta.wikimedia.org (consulté le 26 novembre 2017) : « <dennyvrandecic> Scott_WUaS_: Wikidata is CC0 »
  13. Erik Möller, back then Deputy Director of the Foundation, and I, back then Wikidata director, came independently to the conclusion that CC0 was the best choice for a license. A letter to Andreas – Denny Vrandečić, 9 décembre 2015
  14. But the way you present them here - buried and mixed with a number of conspiracy theories and a dismissive, unrespectful tone towards a volunteer-driven project - I simply don't think that this is a good or even effective way to start this conversation. Ibid
  15. My opinion about data licensing is recorded, and I had some furious discussions with researchers in the Semantic Web area on that topic - if you want, I can point you to them, they will surely remember. This predates my employment with Google and also my employment with Wikimedia Deutschland. Ibid
  16. http://simia.net/wiki/Free_data Free data] Denny Vrandečić, consulté le 5 novembre 2017 dans sa version publiée le 9 mai 2016
  17. My opinion about data licensing is recorded, and I had some furious discussions with researchers in the Semantic Web area on that topic - if you want, I can point you to them, they will surely remember. Ibid
  18. https://meta.wikimedia.org/wiki/Wikilegal/Database_Rights#Copyright_protection_in_the_US
  19. Unfortunately, the European Union went a step further.
  20. (en) « IRC office hours/Office hours 2012-12-18a - Meta », sur meta.wikimedia.org (consulté le 26 novembre 2017) : « we are not here to discuss CC or to analyze it especially since none of us, as far as i know, are lawyers »
  21. Having said that, I still recommend to add the CC0 license to a dataset when you publish it. I grudge every time I do it, but it still makes sense. Not because I believe that it means much: as said, the data in it is free anyway. But because a lot of other people believe that it means a lot.
  22. idoric, « De la validité de la licence CC0 dans le droit français », sur idoric.free.fr, (consulté le 25 novembre 2017)
  23. I joined Google in 2013, and since then I have helped with the release of several datasets from Google under a CC0 license, and most importantly supported the ongoing shutdown of Freebase and the release of Freebase’s data for the benefit of the Wikidata project. page utilisateur de Denny sur Wikipedia
  24. Denny Vrandečić - Research at Google
  25. Wikimedia Blog » Blog Archive » Meet the Wikidata team
  26. En retour à "[Wikidata An answer to Lydia Pintscher regarding its considerations on Wikidata and CC-0"] – Markus Krötzsch 1er décembre 2017. Il s’agit d’une réponse à un message posté sur plusieurs liste de diffusion par le principal auteur du présent projet au moment de sa publication.
  27. L’objectif de cette analyse étant d’évaluer les possibles conflits d’intérêts des parties prenantes, il s’avère par moment nécessaire de passer par des recoupements d’informations autour de personnes précises. Il ne s’agit en aucun dans cette démarche de fustiger les individus concernés, mais uniquement d’évaluer le mode de gouvernance et les influences qui ont conduit au choix de CC0 comme une licence unique pour le projet Wikidata. Les lecteurs et les éventuels contributeurs sont invités à garder ces considérations à l’esprit.
  28. Licensing was discussed in the start of the project, as in start of developing code for the project, and as I recall it the arguments for CC0 was valid and sound. That was long before Danny started working for Google.

    As I recall it was mention during first week of the project (first week of april), and the duscussion reemerged during first week of development. That must have been week 4 or 5 (first week of may), as the delivery of the laptoppen was delayed. I was against CC0 as I expected problems with reuse og external data. The arguments for CC0 convinced me. And yes, Denny argued for CC0 AS did Daniel and I believe Jeroen and Jens did too.

    Réponse de John Erling Blad le 31 décembre 2017
  29. Nevertheless, I must at least testify to what John wrote in his earlier message (quote included below this email for reference): it was not Denny's decision to go for CC0, but the outcome of a discussion among several people who had worked with open data for some time before Wikidata was born. I have personally supported this choice and still do. I have never received any money directly or indirectly from Google, though -- full disclosure -- I got several T-shirts for supervising in Summer of Code projects. Réponse de Markus Krötzsch le 1er décembre 2017
  30. Also this decision comes from a longer history; for instance OmegaWiki has both CC-0 and CC-by-sa as a license because of the lust for endless talk on what license is "best". I do know about a conversation in Rome where this was discussed at length over a pizza. Réponse de Gerard Meijssen le 30 novembre 2017
  31. My reference was to in-place discussions at WMDE, not the open meetings with Markus. Each week we had an open demo where Markus usually attended. As I remember the May-discussion, it was just a discussion in the office, there was a reference to an earlier meeting. It is although easy to mix up old memories, so what happen first and what happen next should not be taken to be facts. If Markus also says the same it is although a reasonable chance we have got it right.Réponse de John Erling Blad le 1er décembre 2017
  32. As to the questions about archives on open discussions with the community. This was in April-May 2012. There was no community, there were only concerned individuals. The community started to emerge in August with the first attempts to go public. – Ibid
  33. Argument is pretty simple: Part A has some data A and claim license A. Part B has some data B and claim license B. Both license A and license B are sticky, this later data C that use an aggregation of A and B must satisfy both license A and license B. That is not viable. Ibib
  34. Just to make it clear; the discussions at the dev-project was in April-May 2012, linking of wd-items on site late in 29 October 2012 (actually 29. October), Danny told us about his new Google job in January 2013. John Erling Blad le 30 novembre 2017
  35. https://www.wikimedia.de/wiki/Pressemitteilungen/PM_3_12_Wikidata_EN
  36. Wikipedia as a Virtual Monument: Developing a New Ontological and Semiotic Model to Define World Heritage Chirstopher Johnson
  37. I would like to respond to you offline about the recent discussion on the mailing list. As you may know, I worked with the Wikidata team for several years. My conclusion about the Wikimedia movement actually coincides with your primary thesis.

    It is indeed a culture that serves corporate interests first. I did my masters thesis on Wikipedia and its founding principles in "Wikipedia as a Virtual Monument: Developing a New Ontological and Semiotic Model to Define World Heritage". Shrouded beneath the rhetoric about "openness" is ironically, greed, power and control. The principle concept of the Wikimedia movement actually posits "free knowledge" as a commodity that can be traded at a very low cost. I feel sorry for the poor souls who have selflessly contributed valuable research without even receiving attribution or a reference in Wikidata. It is perplexing how a culture can foster such egregious exploitation. I noticed a big problem with the vast numbers of unreferenced (unattributed) statements when doing analytics and attempted (without success) to initiate a change in Wikidata policy. In my conservative opinion, an unreferenced statement is invalid. Attribution in academic research is a requirement, and why WIkidata conveniently dismisses it is troublesome. To see through the propaganda is not easy, but when you do, it is shocking.

    – Christopher Johnson, Scientific Associate Universitätsbibliothek Leipzig, dans un mél privé du 1er décembre 2017, publié ici avec son aimable autorisation.
  38. I can provide you with links to discussions and issues where I proposed technical changes to the Wikidata reference implementation.

    https://lists.wikimedia.org/pipermail/wikidata-tech/2015-November/000896.html https://lists.wikimedia.org/pipermail/wikidata-tech/2015-November/000897.html

    and this issue here: https://phabricator.wikimedia.org/T117234#1862002

    As you probably know, the principle people involved with the RDF serialization of Wikidata are Markus Krötsch (who designed the data model), Stas Malyshev (who manages the WDQS) and Daniel Kinzler (who wrote the MW RDF serializer). Lydia is the political mouthpiece and cheerleader for Wikidata and Denny, of course, is the "man behind the curtain". The problem of "broken provenance" in Wikidata is both technical and political. It definitely starts with the CC0, but the entire design of Wikidata is flawed, in my opinion. This stems from the use of a WIki to track item history that is completely absent in the downstream RDF serialization. So there is no provenance or attribution provided to RDF consumers. As a researcher, I cannot use any downstream query data from Wikidata for that reason. It simply cannot be cited as a component of any serious academic research without knowing where and when it exactly was sourced or who made the assertion. If Google (or some other Big Data provider) decides to reuse the data of Wikidata using the RDF dump without the Wiki, this is really a violation, but apparently completely legal. Without the Wiki component of Wikidata, there is no history. And since the IRIs that bind the entities to the Wiki are abstract in the data, they do not need to be dereferenced to have meaning in the context of RDF. Thus there is no hard dependency in the data on the https://wikidata.org, the community, or the Wiki at all.

    At any rate, I am a technical person, and not a lawyer, so I cannot speak about the implications of CC0 instead of GPL in Wikidata. However, I can speak at length about the technical problems of Wikidata, and in my opinion, they are so numerous as to make the project (as it is currently managed by WIkimedia) very unattractive.

    Christopher Johnson, Scientific Associate Universitätsbibliothek Leipzig, dans un mél privé du 2 décembre 2017, publié ici avec son aimable autorisation.
  39. Adding the Lexeme namespace to the licensing footer text
  40. Adding the Lexeme namespace to the licensing footer text
  41. Google Buys Freebase – This is Huge, Krishnan Subramanian 16 juillet 2010
  42. Usage: This compilation is licensed under a Creative Commons Attribution 3.0 Unported License. Google Ngram Viewer
  43. Referenced statements by statement type - toollabs
  44. Voir https://lists.wikimedia.org/pipermail/wikidata/2012-November/001224.html, https://lists.wikimedia.org/pipermail/wikidata/2012-November/001234.html, et les mails suivants de cet fil de mails.
  45. The legal situation is admittedly complex, but don't let anyone tell you that "facts cannot be copyrighted, and that is the end of it." The WMF's own legal department disagreed with that view. réponse à September 28: Strategy update - Final draft of movement direction and endorsement process de Andreas Kolbe le 10 octobre 2017 sur la liste de diffusion wikimedia-l
  46. Especially significant: the loss of provenance (verifiability) due to clear violations of Wikipedia's generous but restrictive licensing terms, e.g., importing Wikipedia's CC BY-SA 3.0 licensed content (not facts, but claims of fact) without required attribution directly into Wikidata under the permissive CCO public domain dedication. [[w:en:Wikipedia:Wikipedia_Signpost/2015-12-02/Op-ed#comments|Commentaire Paulscrawl, 7 December 2015
  47. Wikidata has its own problems in that regard that have triggered ongoing discussions and concerns on the English Wikipedia. Wikidata does not require users to cite sources. It contains millions of statements sourced only to some Wikipedia language version, without identification of the article, article version, or source originally cited in that Wikipedia (if any) at the time of import. It lacks effective Verifiability and BLP policies. – Andreas Kolbe
  48. Communications committee/Subcommittees/Press/2006/03/28 fr.Wikiquote brief/fr]
  49. On disbanding Wikiquote
  50. Paragraphe issue de l’article Wikipédia sur Wikidata, voir l’historique de la page pour les attributions
  51. (en) « Professor Mark Graham », sur oii.ox.ac.uk, Oxford Internet InstituteUniversity of Oxford, (consulté le 23 octobre 2015).
  52. (en) Mark Graham, « The problem with Wikidata », Technology, sur The Atlantic, .
  53. Paragraphe issue de l’article Wikipédia sur Wikidata
  54. Paragraphe issue de l’article Wikipédia sur Wikidata, voir l’historique de la page pour les attributions
  55. think what the project direction has done here is shameful, and as WD editors we should be *ashamed* of how our leadership is treating a sister community. It seems to me Wiktionary has been led right up the garden path with promises of "Structured Data for Wiktionary", seen the detailed structure of their site cloned in minute detail, then had the door slammed in their face with an incompatible licence. "Thanks for 10 years of hard work, now f*ck off". I'm sorry, but I just can't express intensely enough how strongly I feel that dealing with a sister community in this way is unacceptable, a real stain on our site, of which we should all be utterly utterly embarrassed. réponse de Jheald dans le fil de discussion First version of Lexicographical Data will be released in April
  56. Combinaison de contenus encyclopédiques multilingues pour une reconnaissance d’entités nommées en contexte
  57. Question Answering Using Encyclopedic Knowledge Generated from the Web
  58. Computer-Generated Articles Are Gaining Traction - The New York Times
  59. Look Out, Wiki-Geeks; Now Google AI Can Write Wikipedia Articles
  60. I believe I also made sufficiently clear that I have concerns about the CC0 licence and would prefer to see something requiring re-users to attribute the material to Wikidata, just as Bing today attributes Snapshot content to Freebase. I understand we are unlikely to agree on this issue, which is fine. Andreas 10 décembre 2015
  61. (en) « Is it illegal to copy supplier database from a large b2b website like alibaba for your own b2b website but yours is different in a sense that it focuses on only one specific vertical? - Quora », sur www.quora.com (consulté le 25 novembre 2017)
  62. A person infringes a database right if they extract or re-utilise all or a substantial part of the contents of a protected database without the consent of the owner. It should be noted, however, that extracting or re-utilising a substantial part of the contents can result from the repeated and systematic extraction or re-utilisation of insubstantial parts of the contents of a database. Database rights: the basics, Out-Law.com - Legal news and guidance from Pinsent Masons
  63. « La protection juridique des bases de données illustrée par les dernières jurisprudences », journaldunet.com, 24/06/2010 [texte intégral (page consultée le 2017-11-25)]
  64. Les États membres prévoient pour le fabricant d'une base de données le droit d'interdire l'extraction et/ou la réutilisation de la totalité ou d'une partie substantielle, évaluée de façon qualitative ou quantitative, du contenu de celle-ci, lorsque l'obtention, la vérification ou la présentation de ce contenu attestent un investissement substantiel du point de vue qualitatif ou quantitatif. Conseil d'État, 6ème - 1ère chambres réunies, 12/07/2017, 397403, 12/07/2017 [lire en ligne] 
  65. Lydia Pintscher, English: presentation about the state of Wikidata for Wikimania 2015, 2015-07-18 [lire en ligne] 
  66. (en) Jayson DeMers, « Is The Google Knowledge Graph Killing Wikipedia? », Forbes, 3 septembre 2015 [texte intégral (page consultée le 2017-11-25)]
  67. (en) « How has Google Knowledge Graph affected Wikipedia's traffic? », sur www.quora.com (consulté le 25 novembre 2017)
  68. Modèle:En-US « Google’s Knowledge Graph Boxes: killing Wikipedia? », Wikipediocracy, 2014-01-06 [texte intégral (page consultée le 2017-11-25)]
  69. (en) « Google's Knowledge Graph responsible for Wikipedia's declining pageviews? | Digit.in », Digit, 21 janvier 2014 [texte intégral (page consultée le 2017-11-25)]
  70. Wikidata is published under a no-attribution-required CC-0 licence and itself lacks sources for many of its statements, it seems quite possible that many other commercial re-users will jump at the opportunity to use Wikidata content without attribution in order to follow Google's lead and build their own aura of omniscience, replicating and broadening the problem Dewey and Taraborelli lament. Wikimedia's Dario Taraborelli quoted on Google's Knowledge Graph in The Washington Post – Andreas Kolbe
  71. Generating Article Placeholders from Wikidata for Wikipedia: Increasing Access to Free and Open Knowledge, Lucie-Aimée Kaffee 2016
  72. Cas spécifiquement prévu dans le modèle des données mais pas obligatoire. Au 16 octobre 2017, sur 313 333 350 déclarations présentes sur 37 722 717 éléments, 71,06 % des déclarations sont sourcées et 71,54% des éléments ont au moins une source (Wikidata Stats)
  73. Cas non spécifiquement prévu dans le modèle, néanmoins probablement spécifiable de par son extensibilité. Une demande en ce sens a été faite dès 2012 : They could probably do this in an adhoc fashion through the reference field, but it would be much better to have proper support for license tracking built in. https://lists.wikimedia.org/pipermail/wikidata/2012-November/001327.html
  74. m:Strategy/Wikimedia movement/2017/Sources/Russian Wikivoyage
  75. (en) « Wikidata:Project chat - Wikidata », sur www.wikidata.org (consulté le 26 novembre 2017)
  76. Maybe I'm missing something, but why should we restrict Wikidata to a single standard license (or dual-license)? Why not be like Commons, where content can be uploaded under various free licenses?' https://lists.wikimedia.org/pipermail/wikidata/2012-November/001318.html
  77. I wouldn't express it quite so bluntly, but agreed at a time when editing seems to have stabilised again after the 2015/16 rally, shifting the Foundation to a strategy of promoting compliance with both BY and SA would address a lot of problems. It is probably demotivating for editors to see their work used without attribution, and whilst a link back to Wikipedia is not as going to be as good as an edit button, we are greatly limiting ourselves if we rely on people coming directly to our sites and treat every extract from our sites as CC0 or Fair Use. [Wikimedia-l] Copyright enforcement? Jonathan Cardy, 28 janvier 2018
  78. En cliquant sur « enregistrer », vous acceptez les conditions d’utilisation et acceptez de placer irrévocablement votre contribution sous [https://creativecommons.org/publicdomain/zero/1.0/ Creative Commons CC0 License., suivi d’un lien dynamique indiquant J’accepte ces conditions pour mes prochaines modifications. Ne plus afficher ce message.