« Intégration de données/Standardisation » : différence entre les versions
Contenu supprimé Contenu ajouté
m Robot : Remplacement de texte automatisé (-(\*)(.*)\n{2,}(\*) +\1\2\n\3) |
mAucun résumé des modifications |
||
Ligne 14 :
Une fois acquises, les différentes données doivent être standardisées afin d’être exploitées et étudiées uniformément.
Vous disposez peut-être de données sous la forme d’un fichier texte avec des virgules, des points ou d’une feuille de calcul Excel et il s’agira de les convertir sous un format standard. Pour standardiser ces données, il faut les manipuler et, dans un premier temps, les collecter.
[[File:Standardisation (1).pdf|vignette|upright=2.5|Schéma
== Collecter les données ==
Ligne 37 :
== Récupérer les données ==
Lorsque les données exactes dont vous avez besoin ont
Il faut donc standardiser ces données: la méthode la plus simple, mais qui prend beaucoup de temps consiste à visiter chaque page et chaque source et à entrer manuellement les données qui vous intéressent dans une feuille de calcul Excel. Cette méthode est simple et sans fatigue si les données dont vous êtes en possession de sont pas en grande quantité.
Ligne 46 :
== Outils de mise en forme ==
Au vu de l’accroissement du volume de données, le développement de nouveaux outils a été généré afin de rendre plus efficace la mise en forme de ces données. Avant ces nouveaux outils,
=== Google Refine ===
Ligne 60 :
=== Mr.People ===
Mr. People a été inspiré de Mr.Data Converter, sauf que cet outil se spécialise sur
== Les formats courants ==
Avant de standardiser les données,
Les trois formats suivants peuvent peut-être répondre à la plupart de vos besoins : texte délimité JSON (javascript object notation) et XML (extensible markup language).
* '''Texte délimité''' est très utilisé et peut être lu par la plupart des tableurs Excel ou Google Drive
* '''JSON :''' c’est un format qui a pour fonction de représenter de l'information accompagnée d'étiquettes permettant d’en interpréter les divers éléments
* '''XML (Extansible Markup Language) :''' Le XML, traduit en français par « Langage de Balise Extensible », est un document texte dont les valeurs sont encadrées par des balises : flux RSS ou Flowing DATA. Son objectif principal est d’automatiser les données afin qu’elles soient lisibles et compréhensibles par les utilisateurs qui éditent le document et les programmes qui
{{Bas de page
|