Intégration de données/Standardisation
Définition Standardisation
modifierLe terme de standardisation, signifiant étymologiquement "centrer réduire", désigne la conversion des données vers un format standard commun et normalisé.
L’objectif de la standardisation est de rendre les données lisibles par l’ordinateur ou de les structurer de sorte qu’un collaborateur puisse les lire et les comprendre. Une fois acquises, les différentes données doivent être standardisées afin d’être exploitées et étudiées uniformément.
Vous disposez peut-être de données sous la forme d’un fichier texte avec des virgules, des points ou d’une feuille de calcul Excel et il s’agira de les convertir sous un format standard. Pour standardiser ces données, il faut les manipuler et, dans un premier temps, les collecter.
Collecter les données
modifierOn peut se procurer des données dans de nombreux endroits, chez les collaborateurs ou au sein des applications composant de base de données. Ces données peuvent être récupérées par nous même ou par un tiers. Lorsque nous déléguons cette tâche de collecte de données à une personne externe, il est impératif de veiller à la véracité des données, car les coquilles d’erreur peuvent entrainer un temps de travail supplémentaire lors de la finalisation du projet de consolidation.
Par exemple, vous étudiez les résultats d’un sondage :
Posez-vous les bonnes questions sur le contexte et la cohérence des chiffres :
- Quand celui-ci a-t-il eu lieu ?
- Qui l’a réalisé ?
- Qui a répondu ?
Si les données ne viennent pas à vous, il faudra alors les trouver. Les différentes sources peuvent être :
- Les moteurs de recherche : Google, Yahoo, Bing
- Les applications de données
- Les autres sources telles que : sites personnels, universitaires ou spécialisés, mails, service de presse, etc.
Récupérer les données
modifierLorsque les données exactes dont vous avez besoin ont été collectées, c’est là que se pose la problématique du format standard. En effet, les données récupérées sont éparpillées dans plusieurs pages HTLM, site web, livre...
Il faut donc standardiser ces données: la méthode la plus simple, mais qui prend beaucoup de temps consiste à visiter chaque page et chaque source et à entrer manuellement les données qui vous intéressent dans une feuille de calcul Excel. Cette méthode est simple et sans fatigue si les données dont vous êtes en possession ne sont pas en grande quantité.
L’opération de standardisation est lourde si vous avez des données qui pèsent avec des milliers de pages à traiter. Il serait bien plus simple d’automatiser le processus de standardisation avec le scraping de données (= récupération des données).
Ce type d’extraction et de standardisation des données est proposé par les outils suivants sous forme de codage : google refine, scraperwiki et le convertisseur Able2Exxtract PDF.
Outils de mise en forme
modifierAu vu de l’accroissement du volume de données, le développement de nouveaux outils a été généré afin de rendre plus efficace la mise en forme de ces données. Avant ces nouveaux outils, la gestion et la mise en forme des données étaient principalement effectuées à partir de scripts. Cependant il devenait plus favorable d’introduire de nouveaux outils pour gagner en rapidité. Voici les principaux outils utilisés aujourd’hui pour la mise en forme des données :
Google Refine
modifierGoogle Refine, anciennement nommé « Freebase Gridworks », est une application rachetée par Google. Cette application était d’abord élaboré pour développer en tant que plate-forme de données interne, elle regroupe ainsi plusieurs fonctionnalités. Tout le traitement de la mise en forme des données s’effectue sur l’ordinateur avec une extension et une adaptation de l’outil possibles selon les propres besoins des utilisateurs. À l’ouverture de Google Refine, une fenêtre de calcul s’ouvre. À partir de cette feuille de calcul, l’utilisateur peut y trouver les incohérences dans les données et les consolider en vue de la mise en forme ciblée.
Voici un petit exemple : Ici, l’interface utilisateur de google Refine tri les albums. En chargeant les données de cet outil on peut y trouver les incohérences des données, si on trouve une date reclassée par erreur dans la colonne « Album » ou les autres erreurs tels que les erreurs d’incohérence comme les fautes de frappe sont retrouvées sans peine. Google Refine permet donc de retrouver les incohérences perçues dans une base de données.
Mr.Data Converter
modifierL’outil Mr.Data Converter permet de convertir toutes les données Excel en un autre format. En effet, il est souvent difficile de garder la mise en forme des tableaux croisés dynamique ou même des graphiques. Dans le cas général, l’incorporation des fichiers Excel se fait sous format CSV mais M. Data Converter permet de convertir ces fichiers sous différents formats de notre choix à savoir : XML, HTML, JSON et même Actionscript.
Mr.People
modifierMr. People a été inspiré de Mr.Data Converter, sauf que cet outil se spécialise sur l’analyse et l’extraction des données concernant les noms. Ainsi, la mise en forme des noms peut être établie en automatique grâce à ce logiciel.
Les formats courants
modifierAvant de standardiser les données, veillez à ce que le format et la structure choisie offrent de la souplesse et différentes possibilités d’étude. Nous sommes tous habitués à manipuler les données avec Excel. Mais il existe de multitude de logiciels proposant d’autres formats de données. Les trois formats suivants peuvent peut-être répondre à la plupart de vos besoins : texte délimité JSON (javascript object notation) et XML (extensible markup language).
- Texte délimité est très utilisé et peut être lu par la plupart des tableurs Excel ou Google Drive
- JSON : c’est un format qui a pour fonction de représenter de l'information accompagnée d'étiquettes permettant d’en interpréter les divers éléments
- XML (Extansible Markup Language) : Le XML, traduit en français par « Langage de Balise Extensible », est un document texte dont les valeurs sont encadrées par des balises : flux RSS ou Flowing DATA. Son objectif principal est d’automatiser les données afin qu’elles soient lisibles et compréhensibles par les utilisateurs qui éditent le document et les programmes qui les exploitent.