Intégration de données/Les principales approches d'intégration de données

Début de la boite de navigation du chapitre
Les principales approches d'intégration de données
Icône de la faculté
Chapitre no 2
Leçon : Intégration de données
Chap. préc. :Historique et avant-propos
Chap. suiv. :Connexion
fin de la boite de navigation du chapitre
En raison de limitations techniques, la typographie souhaitable du titre, « Intégration de données : Les principales approches d'intégration de données
Intégration de données/Les principales approches d'intégration de données
 », n'a pu être restituée correctement ci-dessus.

Quelles sont les principales approches d’intégration et quels sont leurs avantages et inconvénients ?

modifier

Extract, Transform and Load (ETL)

modifier

L’ETL permet la consolidation des données à l’aide des trois opérations suivantes :

Extraction : Identifier et extraire les données de sources ayant subi une modification depuis la dernière exécution

Transformation : Appliquer diverses transformations aux données pour les nettoyer, les intégrer et les agréger

Chargement : Insérer les données transformées dans l’entrepôt et gérer les changements aux données existantes (Ex : Stratégies SCD)

Il traite normalement de grandes quantités de données en lots et est surtout utilisé avec les entrepôts de données et les comptoirs de données.

 
Entreprise TL

Avantages

modifier
  • Optimiser pour la structure de l’entrepôt de données
  • Pouvoir traiter de grandes quantités de données dans une même exécution (traitement en lot)
  • Permettre des transformations complexes et agrégations sur les données
  • Être contrôlée par l’administrateur
  • Permettre la réutilisation des processus et transformations (ex : Package dans SSIS)

Inconvénients

modifier
  • Processus de développement long et coûteux
  • Gestion des changements nécessaire
  • Exigence de l’espace disque pour effectuer les transformations (Staging area)
  • Exécution indépendamment du besoin réel
  • Latence des données entre la source et l’entrepôt
  • Unidirectionnel (des sources vers l’entrepôt de données)

Entreprise information Intégration (EII)

modifier

L’EII fournit une vue unifiée des données de l’entreprise où les sources de données forment une fédération. Les sources de données dispersées sont consolidées à l’aide d’une BD virtuelle, de manière transparente aux applications utilisant ces données. Toute requête à la BD virtuelle est décomposée en sous-requête aux sources respectives, dont les réponses sont assemblées en un résultat unifié et consolidé. Il permet aussi de consolider uniquement les données utilisées, au moment où elles sont utilisées (Source Data Pulling). Le traitement en ligne des données peut cependant entraîner des délais importants.

Avantages

modifier
  • Avoir un accès relationnel à des sources non-relationnelles
  • Permettre d’explorer les données avec la création du modèle de l’entrepôt de données
  • Accélèrer le déploiement de la solution
  • Pouvoir être réutilisé par le système ETL dans une itération future

Inconvénients

modifier
  • Requiert la correspondance des clés d’une source à l’autre
  • Consolidation des données plus complexe que dans l’ETL
  • Surtaxe les systèmes sources
  • Plus limité que l’ETL dans la quantité de données pouvant être traitée
  • Transformations limitées sur les données
  • Consommation d'une grande bande passante du réseau

Entreprise Application intégration (EAI)

modifier

L’EAI est une approche permettant de fournir à l’entrepôt de données des sources (Data pushing). Il repose sur l’intégration et le partage des fonctionnalités des applications sources à l’aide d’une architecture SOA. De plus, il est généralement utilisé en temps réel ou semi-réel (Near Real Time). L’EAI ne remplace pas le processus ETL mais permet de simplifier ce dernier.

 

Avantages

modifier
  • Faciliter l’interopérabilité des applications
  • Permettre l’accès en quasi temps réel
  • Ne transfèrer que les données nécessaires
  • Contrôler le flot d’information

Inconvénients

modifier
  • Support limité aux transformations et agrégations des données
  • Taille des transactions limitée (en nombre de lignes)
  • Développement complexe
  • Gestion complexe de l’intégrité sémantique des données
  • Utilisation de la bande passante du réseau durant les heures de pointe

Quand utiliser les approches d’intégrations ?

modifier

Pour ETL

  • Consolidation d’une grande quantité de données
  • Transformations complexes

Pour EII

  • Relier un entrepôt (EDW) existant avec des données de sources spécifiques
  • Données sources volatiles et accessibles à l’aide de requêtes simples (EX :SQL)

Pour EAI

  • Intégration de transactions
  • Requêtes analytiques simples
  • Sources non-accessibles directement

Synthèse entre les différentes méthodes d'intégration

modifier

 

Exemples de produits commerciaux

modifier

Outils ETL

  • Oracle Warehouse Builder
  • Microsoft SQL Server Intégration Services (SSIS)
  • SAS Data Intégration Studio

Outils EII

  • SAP BusinessObjects Data Federator
  • IBM WebSphere Federation Server

Outils EAI

  • IBM WebSphere Message Broker
  • Oracle SOA Suite
  • DEX - Data Exchanger (TENOR EDI SERVICES)