« Intégration de données/Standardisation » : différence entre les versions

Contenu supprimé Contenu ajouté
m Robot : Remplacement de texte automatisé (-(\*)(.*)\n{2,}(\*) +\1\2\n\3)
mAucun résumé des modifications
Ligne 14 :
Une fois acquises, les différentes données doivent être standardisées afin d’être exploitées et étudiées uniformément.
 
Vous disposez peut-être de données sous la forme d’un fichier texte avec des virgules, des points ou d’une feuille de calcul Excel et il s’agira de les convertir sous un format standard. Pour standardiser ces données, il faut les manipuler et, dans un premier temps, les collecter.
 
 
[[File:Standardisation (1).pdf|vignette|upright=2.5|Schéma standirsationde standardisation|centre]]
 
== Collecter les données ==
Ligne 37 :
== Récupérer les données ==
 
Lorsque les données exactes dont vous avez besoin ont étaitété collectées, c’est là que se pose la problématique du format standard. En effet, les données récupérées sont éparpillées dans plusieurs pages HTLM, site web, livre...
 
Il faut donc standardiser ces données: la méthode la plus simple, mais qui prend beaucoup de temps consiste à visiter chaque page et chaque source et à entrer manuellement les données qui vous intéressent dans une feuille de calcul Excel. Cette méthode est simple et sans fatigue si les données dont vous êtes en possession de sont pas en grande quantité.
Ligne 46 :
 
== Outils de mise en forme ==
Au vu de l’accroissement du volume de données, le développement de nouveaux outils a été généré afin de rendre plus efficace la mise en forme de ces données. Avant ces nouveaux outils, la gestion et la mise en forme des données étaient principalement effectuées à partir de scripts. Cependant il devenait plus favorable d’introduire de nouveaux outils pour gagner en rapidité. Voici les principaux outils utilisés aujourd’hui pour la mise en forme des données :
 
=== Google Refine ===
Ligne 60 :
 
=== Mr.People ===
Mr. People a été inspiré de Mr.Data Converter, sauf que cet outil se spécialise sur l’analyse et l’extraction des données concernant les noms. Ainsi, la mise en forme des noms peut être établie en automatique grâce à ce logiciel.
 
== Les formats courants ==
 
 
Avant de standardiser les données, veilléesveillez à ce que le format et la structure choisie offrent de la souplesse et différentes possibilités d’étude. Nous sommes tous habitués à manipuler les données avec Excel. Mais il existe de multitude de logiciels proposant d’autres formats de données.
Les trois formats suivants peuvent peut-être répondre à la plupart de vos besoins : texte délimité JSON (javascript object notation) et XML (extensible markup language).
 
* '''Texte délimité''' est très utilisé et peut être lu par la plupart des tableurs Excel ou Google Drive
* '''JSON :''' c’est un format qui a pour fonction de représenter de l'information accompagnée d'étiquettes permettant d’en interpréter les divers éléments
* '''XML (Extansible Markup Language) :''' Le XML, traduit en français par « Langage de Balise Extensible », est un document texte dont les valeurs sont encadrées par des balises : flux RSS ou Flowing DATA. Son objectif principal est d’automatiser les données afin qu’elles soient lisibles et compréhensibles par les utilisateurs qui éditent le document et les programmes qui les exploitent.
 
{{Bas de page