« Intégration de données/Standardisation » : différence entre les versions

Contenu supprimé Contenu ajouté
Spcteamwork (discussion | contributions)
wikification
Ligne 1 :
 
== '''Définition Standardisation''' ==
 
Le terme de standardisation signifiant mot par mot centrer réduire qualifie la conversion des données vers un standard commun et normalisé.
Ligne 6 :
Une fois en possession des données, les différentes données doivent être standardisées afin qu’elles soient exploitées et étudiées de façon égalitaire. Vous disposez peut-être de données sous la forme d’un fichier texte avec des virgules, des points ou d’une feuille de calcul Excel et il s’agira de les convertir sous un format standard. Pour standardiser ces données, il faut les manipuler et dans un premier temps les collecter.
== '''Collecter les données''' ==
 
On peut se procurer des données dans de nombreux endroits, chez les collaborateurs ou au sein des applications composant de base de données. Ces données peuvent être récupérées par nous même ou par un tiers. Lorsque nous déléguons cette tâche de collecte de données à une personne externe, il est impératif de veiller à la véracité des données, car les coquilles d’erreur peuvent entrainer un temps de travail supplémentaire lors de la finalisation du projet de consolidation.
Ligne 15 :
- Applications de données
== '''Récupération des données''' ==
 
Lorsque les données exactes dont vous avez besoin ont était collecté, c’est la que se pose la problématique de format standard, car les données récupérées sont éparpillées dans plusieurs pages HTLM, site web, livre. Il faut donc standardiser ses données, la méthode la plus simple, mais qui prend beaucoup de temps consiste à visiter chaque page et chaque source et à entrer manuellement les données qui vous intéressent dans une feuille Excel de calcul. Cette méthode est simple et sans fatigue si les données dont vous êtes en possession de sont pas énorme.
L’opération de standardisation est lourde sir vous avez des données qui pèsent avec des milliers de pages à traiter. Il serait bien plus simple d’automatiser le processus de standardisation avec le scraping de données (=récupération des données). Ce type d’extraction et de standardisation des données sont proposés par les outils suivant sous forme de codage : google refine, scraperwiki, et le convertisseur Able2Exxtract PDF.
 
'''== Outils de mise en forme =='''
Au vu de l’accroissement du volume de données, le développement de nouveaux outils a été généré afin de rendre plus efficace la mise en forme de ces données. Avant ces nouveaux outils, la gestion et la mise en forme des données étaient principalement effectuées à partir de scripts, cependant il devenait plus favorable d’introduire de nouveaux outils pour gagner en rapidité. Voici les principaux outils utilisés aujourd’hui pour la mise en forme des données :