« Intégration de données/Standardisation » : différence entre les versions

Contenu supprimé Contenu ajouté
Spcteamwork (discussion | contributions)
Spcteamwork (discussion | contributions)
Aucun résumé des modifications
Ligne 3 :
 
Le terme de standardisation, signifiant étymologiquement "centrer réduire", qualifie la conversion des données vers un standard commun et normalisé.
 
L’objectif de la standardisation est de rendre les données lisibles par l’ordinateur ou de les structurer de sorte qu’un ordinateur ou un collaborateur puisse les lire et les comprendre.
Une fois acquisesacquise, les différentes données doivent être standardisées afin d'être exploitées et étudiées uniformément.
 
Vous disposez peut-être de données sous la forme d’un fichier texte avec des virgules, des points ou d’une feuille de calcul Excel et il s’agira de les convertir sous un format standard. Pour standardiser ces données, il faut les manipuler et dans un premier temps les collecter.
 
Ligne 10 ⟶ 12 :
 
On peut se procurer des données dans de nombreux endroits, chez les collaborateurs ou au sein des applications composant de base de données. Ces données peuvent être récupérées par nous même ou par un tiers. Lorsque nous déléguons cette tâche de collecte de données à une personne externe, il est impératif de veiller à la véracité des données, car les coquilles d’erreur peuvent entrainer un temps de travail supplémentaire lors de la finalisation du projet de consolidation.
 
Par exemple, vous étudiez les résultats d’un sondage : Posez-vous les bonnes questions sur le contexte et la cohérence des chiffres : quand celui-ci a-t-il eu lieu ? Qui l’a réalisé ? Qui a répondu ?
Par exemple, vous étudiez les résultats d’un sondage :
 
Posez-vous les bonnes questions sur le contexte et la cohérence des chiffres :
* Quand celui-ci a-t-il eu lieu ?
 
* Qui l’a réalisé ?
 
* Qui a répondu ?
Si les données ne viennent pas à vous, il faudra alors les trouver. Les différentes sources peuvent être :
-
- Les moteurs de recherche : google, Yahoo, bing
* Les moteurs de recherche : Google, Yahoo, Bing
-
* Directement à partir de la source : sites personnels, universitaires, spécialisés, mail, service de presse, etc.
-
- * Applications de données
 
== Récupération des données ==
 
Lorsque les données exactes dont vous avez besoin ont était collectées, c’est là que se pose la problématique du format standard. En effet, les données récupérées sont éparpillées dans plusieurs pages HTLM, site web, livre. ..

Il faut donc standardiser ces données: la méthode la plus simple, mais qui prend beaucoup de temps consiste à visiter chaque page et chaque source et à entrer manuellement les données qui vous intéressent dans une feuille de calcul Excel. Cette méthode est simple et sans fatigue si les données dont vous êtes en possession de sont pas en grande quantité.
 
L’opération de standardisation est lourde si vous avez des données qui pèsent avec des milliers de pages à traiter. Il serait bien plus simple d’automatiser le processus de standardisation avec le scraping de données (= récupération des données). Ce type d’extraction et de standardisation des données est proposé par les outils suivants sous forme de codage : google refine, scraperwiki, et le convertisseur Able2Exxtract PDF.
 
Ce type d’extraction et de standardisation des données est proposé par les outils suivants sous forme de codage : google refine, scraperwiki et le convertisseur Able2Exxtract PDF.
 
== Outils de mise en forme ==
Au vu de l’accroissement du volume de données, le développement de nouveaux outils a été généré afin de rendre plus efficace la mise en forme de ces données. Avant ces nouveaux outils, la gestion et la mise en forme des données étaient principalement effectuées à partir de scripts,. cependantCependant il devenait plus favorable d’introduire de nouveaux outils pour gagner en rapidité. Voici les principaux outils utilisés aujourd’hui pour la mise en forme des données :
 
=== Google Refine ===
Ligne 29 ⟶ 47 :
À l’ouverture de Google Refine, une fenêtre de calcul s’ouvre. À partir de cette feuille de calcul, l’utilisateur peut y trouver les incohérences dans les données et les consolider en vue de la mise en forme ciblée.
 
Voici un petit exemple : Ici, l’interface utilisateur de google Refine tri les Albumsalbums. En chargeant les données de cet outil on peut y trouver les incohérences des données, si on trouve une date reclassée par erreur dans la colonne « Album » ou les autres erreurs tels que les erreurs d’incohérence comme les fautes de frappe sont retrouvées sans peine. Google Refine permet donc de retrouver les incohérences perçues dans une base de données.
 
=== Mr.Data Converter ===