« Talend/L'intégration de données » : différence entre les versions

Contenu supprimé Contenu ajouté
MaitreCoq (discussion | contributions)
Aucun résumé des modifications
MaitreCoq (discussion | contributions)
Aucun résumé des modifications
Ligne 36 :
 
== Utilisation en entreprise du Big data Talend ==
<br />
 
Talend offre deux solutions d’intégration Big Data pour répondre à tous les besoins : '''Talend Open Studio for Big Data''', outil de développement Open source gratuit, et '''Talend Platform for Big Data''', avec des fonctions incluses de qualité de données, de déploiement avancé et de gestion.<br />
 
Talend offre deux solutions d’intégration Big Data pour répondre à tous les besoins : '''Talend Open Studio for Big Data''', outil de développement Open source gratuit, et '''Talend Platform for Big Data''', avec des fonctions incluses de qualité de données, de déploiement avancé et de gestion.
 
=== Talend Open Studio for Big Data ===
Ligne 43 ⟶ 45 :
[[File:Talend Big data.gif|gauche|Talend Big data]]
<br /><br /> Le '''Big Data''' représente un changement significatif de modèle au niveau de la technologie des entreprises modernes et transforme ce qu’elles sont aujourd’hui. Les entreprises capturent des '''trillions d’octets d’informations''' concernant leurs clients, leurs fournisseurs, les opérations d’entreprise. Des millions de réseaux de capteurs embarqués dans des appareils, tels que les téléphones portables, les compteurs d’énergie et les automobiles sentent les données, les créent et les communiquent. Le désir de collecter les enregistrements des détails des appels, les logs internet, les données des réseaux de capteurs, des transactions financières, des médias sociaux et des textes internet, puis de les analyser par rapport aux sources de données existantes, est toujours plus fort. En collectant et analysant ces données, les entreprises ont une meilleure vision des nouvelles opportunités et des menaces du marché.<br />
 
 
 
 
Talend offre un environnement graphique simple qui permet aux développeurs de mapper visuellement des sources Big Data et cibles de données volumineuses, sans avoir besoin d’écrire du code complexe. Une fois la connexion Big Data configurée, le code est automatiquement généré et déployé en tant que service, exécutable.
 
Le projet Big data de Talend va au delà de plusieurs obstacles, notamment liés à la '''technologie''', au '''personnel''' et aux processus de '''qualité'''.
 
* Technologie : La réussite d’un projet Big Data nécessite l’acquisition, l’intégration et la gestion de plusieurs technologies Big Data, comme Hadoop, MapReduce, les bases de données NoSQL, Pig, Scoop, Hive, Oozie, etc. L'intégration d'ensembles de données volumineux et structurés différemment ou non structurés peut rapidement devenir un cauchemar d'écriture de code personnalisé, difficile à maintenir et à gérer. Les outils traditionnels de gestion de données échouent lors de tentatives d’intégration, de recherche et d’analyse d’ensembles de données volumineux, allant (pour le moment) de quelques téraoctets à de nombreux pétaoctets d’informations.
<br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br />
 
* Personnel : Comme pour toute nouvelle technologie, les équipes doivent être formées aux technologies Big Data afin d’obtenir les compétences et d’appliquer les bonnes pratiques. Une récente étude de Talend, « Où en est l’Adoption du Big Data ? », permet de voir que les deux plus grands défis de l’implémentation du Big Data sont de trouver l’expertise interne, ainsi que d’allouer suffisamment de budget, de temps et de ressources.
 
* Processus de qualité : Cette étude permet également de constater que la plupart des projets Big Data n’ont pas de structure explicite de gestion de projet, de gouvernance de données et manquent de procédures de qualité de Big Data lors du traitement d’ensembles de données non structurées.
 
 
=== Talend Platform for Big Data ===
 
'''₪ Plateforme de chargement :'''
Le chargement des Big Data (de fichiers de log, de systèmes opérationnels, médias sociaux, capteurs ou autres sources) dans une plateforme Big Data, comme Apache Hadoop, Google Cloud Platform, Netezza, Teradata ou Vertica devient une opération des plus simples grâce à l’éventail des composants Big Data fournis par Talend. Un ensemble complet de composants Talend d’intégration de données (applications, bases de données, services et même hubs de données maître) est disponible pour orchestrer les mouvements des données de n’importe quelle source ou vers n’importe quelle source. La connectivité NoSQL est simplifiée grâce aux connecteurs graphiques préconfigurés.<br />
 
'''₪ Plateforme de qualité :'''
Talend offre des fonctionnalités de qualité de données basées sur l’environnement massivement parallèle de Hadoop, permettant ainsi d’évaluer les données et de supprimer les doublons. Le profiling de données Hadoop vous permet de collecter des informations et des statistiques concernant les Big Data, afin d’évaluer leur qualité, ainsi que celles des métadonnées, puis de les redéfinir, si besoin. Des fonctions supplémentaires sont incluses, notamment la standardisation, le parsing, l’enrichissement, le matching, l’arbitrage et le monitoring de la qualité des données, en continu.<br />
 
'''₪ Plateforme de manipulation:'''
Talend change la donne pour les développeurs en intégration, fournissant ainsi un nouveau paradigme de travail avec Hadoop, Pig, NoSQL et même Redshift et Google Big Query, permettant ainsi d’effectuer des transformations complexes et des analyses sur de gros volumes de données en très peu de temps. Avec les compétences déjà possédées, vous pouvez mapper, comparer, filtrer, évaluer, regrouper des données et exécuter des processus au sein d’un cluster HDFS.<br />
 
[[File:Big data.png|centré|Big data]]
Ligne 59 ⟶ 77 :
 
La technologie open source de Talend aide les entreprises de toutes tailles à convertir d’énormes jeux de données en intelligence métier. Alors que le déploiement de systèmes propriétaires à travers des environnements étendus et distribués de "big data" est coûteux, les logiciels open source se révèlent beaucoup plus économiques et flexibles que les solutions traditionnelles, et supportent la dimension temps réel, sans augmentation du coût des licences. Ainsi les logiciels open source représentent une technologie de choix pour les applications de "big data".
 
== Références ==
 
[http://fr.talend.com/about-us Talend]
 
{{Bas de page