« Intégration de données/Standardisation » : différence entre les versions

Contenu supprimé Contenu ajouté
m Robot : Remplacement de texte automatisé (-\n(==={0,3})(?: *)([^\n=]+)(?: *)\1(?: *)\n +\n\1 \2 \1\n)
coquille, je suppose
Ligne 35 :
* Les autres sources telles que : sites personnels, universitaires ou spécialisés, mails, service de presse, etc.
 
== Récupérer les données ==
 
Lorsque les données exactes dont vous avez besoin ont été collectées, c’est là que se pose la problématique du format standard. En effet, les données récupérées sont éparpillées dans plusieurs pages HTLM, site web, livre...
 
Il faut donc standardiser ces données: la méthode la plus simple, mais qui prend beaucoup de temps consiste à visiter chaque page et chaque source et à entrer manuellement les données qui vous intéressent dans une feuille de calcul Excel. Cette méthode est simple et sans fatigue si les données dont vous êtes en possession dene sont pas en grande quantité.
 
L’opération de standardisation est lourde si vous avez des données qui pèsent avec des milliers de pages à traiter. Il serait bien plus simple d’automatiser le processus de standardisation avec le scraping de données (= récupération des données).