Les tendances lourdes qui bouleversent les marchés – mondialisation, fusions-acquisitions, contraintes réglementaires, concurrence accrue, restrictions budgétaires, exigences des clients en matière de service… – imposent aux entreprises une plus grande flexibilité opérationnelle. Les organisations les plus performantes sont aujourd’hui celles qui peuvent réagir rapidement aux changements. Elles ont notamment pris conscience que tout obstacle en matière de flux d’informations peut avoir un impact négatif sur l’efficacité de leurs opérations, leurs actifs et leurs résultats. Les conséquences réglementaires d’un manque de traçabilité ou d’un reporting inexact peuvent également s’avérer catastrophiques.
À l’heure où les volumes de données augmentent, où la liste des sources de données possibles s’allonge et où l’activité réclame sans cesse des informations plus précises et actualisées, la nécessité de devenir une « entreprise temps réel » se fait de plus en plus pressante. L’entreprise temps réel réagit plus vite, plus efficacement et à moindre coût à l’évolution des attentes des clients, aux retournements de conjoncture et à l’apparition de nouveaux concurrents. La clé de sa flexibilité ? La disponibilité en « temps voulu » d’informations complètes, exactes et cohérentes.
Du temps réel ou temps voulu
Pour rester réaliste et concret, inutile d’imaginer que l’entreprise temps réel doive intégrer et distribuer toutes ses données en temps réel. La notion de disponibilité des données en « temps voulu » s’avère bien plus réaliste et plus pertinente que le « tout temps réel ». Comme le soulignait l’analyste Ted Friedman dans une étude récente du Gartner, « il est essentiel que les organisations comprennent que l’intégration de leurs données nécessite des temps de latence différents : même si les activités temps réel sont en forte croissance, il y aura toujours des tâches d’intégration de données avec des temps de latence plus élevés. D’une part, parce que toutes les données d’une architecture ne changent pas forcément fréquemment ; et d’autre part, parce que les différents processus, équipes et fonctions de l’entreprise ne sont pas tous organisés pour tirer parti des données temps réel ». Sans oublier que le caractère temps réel en matière de données augmente très fortement le coût d’accès ou de production de ces informations.
Les besoins en termes de disponibilité de l’information diffèrent considérablement en fonction des processus opérationnels spécifiques de l’entreprise. Typiquement, les temps de latence pour l’intégration de données à des fins d’analyses historiques s’étalent de quelques jours à plusieurs semaines. Tandis que l’intégration de données opérationnelles nécessite des délais de mise à disposition de l’information variant de quelques heures, quelques minutes, voire quelques secondes.

Planifier un projet d’intégration de données
La réussite d’un projet d’intégration de données est d’ordinaire étroitement liée à la capacité de se conformer aux contrats de niveau de service (SLA) en matière de latence, d’exhaustivité et d’exactitude des données. Lors de la planification d’un projet d’intégration de données, les responsables doivent considérer plusieurs points, comme les objectifs du projet – analytiques ou opérationnels, la fréquence de livraison des données, la qualité des données traitées – faut-il procéder au nettoyage des données ? – le volume et la variété des données concernées.
Encore faut-il disposer d’une technologie suffisamment souple, non seulement pour prendre en charge tous types de données, mais aussi pour extraire, transformer, intégrer et distribuer ces données au rythme requis par les activités métiers.
Les solutions d’intégration de données existantes et leurs limites
Comme les données sont le plus souvent fragmentées, incomplètes et soumises à des latences variables, garantir la disponibilité d’informations fiables en temps voulu n’est pas une ambition anodine. Les méthodes d’intégration centrées sur les applications – EAI, BPM, ESB, et même si elles reposent sur une architecture de type SOA - ne parviennent pas à gérer toute la complexité des données de l’entreprise. En outre, ces approches reposent sur le postulat souvent erroné que les données sont toujours disponibles et immédiatement utilisables. De plus, quand elles s’appuient sur un codage manuel, elles engendrent des incohérences et des inexactitudes au niveau des données et laissent peu de possibilités de réutiliser les développements réalisés. En outre, ces méthodes favorisent ainsi une prolifération d’interfaces non normalisées qui augmente la complexité de l’infrastructure et induit des coûts de maintenance élevés.
D’une manière générale, les approches traditionnelles (telles que l’EAI, l’EII ) pour l’intégration de données opérationnelles, se sont révélées consommatrices en temps, onéreuses, et difficiles à mettre en place et à maintenir. Enfin, elles ne peuvent pas gérer les problèmes liés à la qualité et à la gouvernance des données de façon satisfaisante.
Pour maximiser la valeur ajoutée et la valeur informatique d’une stratégie d’intégration axée sur les applications de type EAI, ESB, SOA ou BPM, les entreprises doivent examiner minutieusement les défis d’intégration des données, les exigences et les solutions potentielles. La mise en place d’une stratégie EIM (Entreprise Information Management ou gestion des informations d’entreprise), dans laquelle les technologies d’intégration de données et d’applications jouent des rôles complémentaires, aide l’entreprise à gagner en flexibilité.
Privilégier l’automatisation
À mesure de l’augmentation des volumes de données, et de l’émergence des flux de données continus issus d’une variété de sources de données structurées et non structurées (par exemple, Internet, les progiciels, les files d’attente de messages, les documents bureautiques, PDF), il devient plus en plus complexe d’intégrer, de nettoyer, d’enrichir, et de fournir des données vers les divers canaux de consommation (portail, web services, applications). Ainsi, l’automatisation de l’intégration de données opérationnelles constitue rapidement un avantage concurrentiel considérable.
Automatisation des données de front-office
Grâce à des technologies innovantes permettant d’extraire des données à partir d’une multiplicité de formats de données non structurés (par exemple : MS Office, PDF…), de nouvelles capacités d’intégration de données en temps réel voient le jour. Nombre d’utilisateurs de l’entreprise utilisent les documents bureautiques et les courriers électroniques pour envoyer des informations essentielles qui doivent absolument être intégrées. La plupart du temps, celles-ci sont ressaisies à réception dans les systèmes d’information de l’entreprise. Aujourd’hui, ce processus se fait essentiellement de façon manuelle. Il est désormais possible de traiter tous documents entrants, et d’intégrer les données dans les systèmes d’information en temps réel. Bien entendu, une information préalable sur ces processus liés aux documents « individuels » devra être diffusée à tous les utilisateurs concernés. Et un conseil juridique pour encadrer cette pratique peut permettre d’agir en toute légalité.
Automatisation des données de back-office
Au fil des ans, plusieurs secteurs d’activité ont défini des formats de structure de données et des protocoles destinés à améliorer les communications entre entités commerciales. Ces normes et protocoles contribuent à assurer des échanges d’informations efficaces entre les sociétés. Il est fréquent que des sociétés utilisent ou adaptent plusieurs types de formats différents afin de faciliter les communications entre partenaires commerciaux.
Certains formats standards ont émergé, promus par des groupes de normalisation indépendants (tels qu’ISO, International Standard Organisation), afin de soutenir des processus d’entreprise spécifiques. Au nombre des formats standards, les plus répandus figurent le HL7 (Health Level 7) et le HIPAA (Health Insurance Portability and Accountability Act) pour la pharmacie et la santé ; Accord et Afnor Pénélope pour l’assurance ; l’EDI pour les entreprises tous secteurs, et les formats Swift, Nacha et Sepa pour les banques.
Néanmoins, les normes seules ne suffisent pas à assurer une communication efficace entre entreprises. De plus, elles peuvent représenter une contrainte supplémentaire si elles ne sont pas accompagnées de processus d’automatisation. Afin d’accélérer les délais de mise en oeuvre et réduire les coûts de maintenance, des bibliothèques clé en main pour lire et écrire ces formats sont désormais mises à la disposition des entreprises. Des solutions avancées compatibles avec quasiment tout type de données complexe facilitent l’adaptation des formats pour répondre aux besoins métiers spécifiques.
Cap vers l’intégration de données opérationnelles
Les entrepôts de données en temps réel, les hubs de données opérationnelles, les projets de synchronisation et de réplication de données sont autant d’exemples de projets informatiques nécessitant l’intégration de données opérationnelles. Passons en revue chacune de ces composantes pour déterminer comment les gérer.
Les entrepôts de données combinent batch et temps réel
L’entrepôt de données en temps réel combine l’intégration de données en mode batch, et l’intégration en temps réel. L’intégration de données en temps réel répond d’ordinaire à deux exigences principales.
La première est un impératif technique pour traiter de grandes quantités de mouvements de données. Schématiquement, un entrepôt de données est constitué de deux zones de stockage. La première est traditionnellement appelée magasin de données opérationnelles (Operational Data Store, ODS), qui stocke temporairement des données transactionnelles issues de toutes les applications sources de données.
Lorsque l’ODS est chargé, les données sont consolidées et agrégées dans l’entrepôt de données (datawarehouse), pour fournir des prévisions cohérentes et un historique de l’activité de l’entreprise. Le chargement de l’ODS chaque nuit, suivi de l’agrégation complexe des données dans l’entrepôt, peut être insuffisant dans le cas de gros volumes de données. Dans ce cas particulier, il est préférable de lisser le chargement de l’ODS sur toute la journée.
À la fin de la journée, l’entrepôt de données peut être chargé directement. Les ressources sont partagées de manière optimale entre les charges de l’ODS et celles de l’entrepôt de données. Il en va de même lorsque l’accès à l’entrepôt de données se fait depuis le monde entier, 24h/24, 7j/7. La notion de chargement en mode batch dans une fenêtre spécifique disparaît ainsi, au profit de chargements en continu, 24h/24, 7j/7.
Le chargement de l’ODS en temps réel améliore également le mécanisme de récupération sur incident, en cas de défaillance. Dans le cas des gros entrepôts de données, lorsqu’une erreur survient au cours du chargement de l’ODS ou de celui de l’entrepôt de données lui-même, il est difficile de procéder à un nouveau chargement pendant cette même fenêtre batch. Avec un entrepôt de données en temps réel, les chances de pouvoir procéder à un nouveau chargement de l’entrepôt de données sont considérablement accrues.
La seconde contrainte est liée à l’activité de l’entreprise. Certaines décisions doivent être fondées sur des informations qui ont été analysées en temps réel ou en quasi temps réel.
La réplication de données traite le problème à la source
La réplication de données consiste à copier physiquement des données d’un système à un autre. Par exemple, copier des tables d’une base de données relationnelle (SGBDR) issues d’un système source vers un autre SGBDR de même type ou de type différent. La réplication de données doit être en mesure de déplacer en continu des données d’un système vers un autre, au fur et à mesure que des transactions interviennent dans le système source. Les projets de réplication de données répondent à plusieurs types de besoins tels que ceux décrits dans les exemples suivants : conformité réglementaire, détection des fraudes, reporting opérationnel, entrepôts de données temps réel.
Dans une entreprise opérant 24h/24, 7j/7, le traitement en mode batch peut être inadapté pour le déplacement des données. Afin d’éviter d’impacter la performance du système opérationnel par des extractions de données massives, il est préférable de déplacer les données tout au long de la journée pour un meilleur équilibrage des charges. Dans ce cas, la réplication des données n’a pas d’incidence sur le système opérationnel.
La synchronisation de données peut répondre efficacement
Les projets de synchronisation de données constituent un autre type de copie de données. Toutefois, les données copiées ne sont pas nécessairement facilement accessibles et requièrent des transformations ou conversions, ainsi que des informations additionnelles, avant d’être intégrées au système cible. Les projets de synchronisation de données transfèrent généralement des données dans les deux sens, entre deux applications ou plus. Rationaliser et automatiser les processus de synchronisation en se fondant sur des standards opérationnels permet de gagner considérablement en efficacité opérationnelle et de réduire les coûts.
Assurer la qualité des données en temps réel
La qualité des données est essentielle pour permettre à une société d’être efficace et réactive sur le plan opérationnel. Les entreprises consacrent des sommes considérables pour nettoyer leurs données, les actualiser, en assurer la cohérence, et éviter les doublons. Cependant, du fait de la multiplicité des points d’entrée au sein d’une base de données, qu’ils soient automatisés ou manuels, et en raison de l’absence de contrôle, les processus de nettoyage doivent être sans cesse répétés. En plus des nettoyages de données massifs devant être effectués régulièrement, il est nécessaire, chaque fois que de nouvelles données sont acquises ou intégrées, de les nettoyer au point d’entrée. Dès que des données sont créées dans un système, elles doivent être validées et normalisées selon les standards de l’entreprise, soit automatiquement, soit par intervention humaine.
Les centres de compétences en intégration jouent aussi en direct
Un IC (Integration Competency Center) est une ressource partagée regroupant des personnes, des technologies, ainsi qu’un ensemble de règles, de pratiques et de processus dédiés au déploiement rapide, économique et reproductible de projets d’intégration de données cruciaux pour que l’entreprise atteigne ses objectifs. Les entreprises ont réalisé qu’il existait un rapport direct entre le niveau de leur IC et l’aptitude de leurs organisations à répondre à l’évolution rapide des business-model, à une concurrence accrue et à des clients toujours plus exigeants. Un IC temps réel doit fournir l’infrastructure indispensable pour livrer, en temps voulu et de manière flexible, des informations complètes et exactes à travers toute l’entreprise.
Les services de données : idéal pour gagner en agilité
Quelle est la solution d’intégration de données idéale pour produire et livrer en temps voulu des informations complètes et exactes, tout en réduisant les coûts et la complexité ? Réponse : les services de données !
Un service de données est un élément logiciel modulaire, réutilisable et dont le rôle est clairement défini. Il s’appuie sur des normes technologiques établies de façon à rendre aisés l’accès, l’intégration et la livraison en temps voulu des données à travers toute l’entreprise et par delà ses pare-feux. Comme l’illustre la figure ci-dessous, la technologie des services de données introduit une couche d’abstraction entre les sources de données, telles que les applications d’entreprise et mainframe, et les applications consommatrices de données, tels que les services Web et les outils de business intelligence.
Cette couche d’abstraction, basée sur des standards, offre, sous forme de services, un moyen souple et simple pour accéder à toutes les données, les intégrer, les nettoyer et les distribuer, quelles que soient leur localisation (interne ou externe) ou leur structure (y compris les données non structurées et semi-structurées). Elle facilite considérablement la tâche d’une organisation souhaitant construire une vue unique et cohérente de toutes ses données et capitaliser sur ces informations au bon moment pour accroître sa flexibilité opérationnelle.
Une couche d’abstraction entre sources et applications cibles
Une couche d’abstraction de services de données isole les applications consommatrices de données des sources sous-jacentes et de la complexité des structures de données, des formats et des mécanismes d’accès à ces données. De plus, elle élimine ou limite le recours à des mécanismes d’intégration de données de point à point, toujours coûteux, en fournissant une interface unique pour propager les changements vers les applications ou les sources de données. Le département informatique peut modifier ou remplacer les sources de données sans influencer les applications clientes, ce qui améliore la flexibilité de l’infrastructure d’intégration générale de l’entreprise.
Simplifier l’accès aux données
Grâce à cet accès simplifié aux données et à une réduction de la complexité, les départements informatiques peuvent réduire de façon significative le temps passé à l’intégration des données et se concentrer sur l’élaboration et la livraison d’applications et de services à réelle valeur ajoutée. La possibilité de réutiliser la logique d’intégration de données au travers de services de données simplifie et accélère l’intégration tant pour de nouvelles sources de données que pour de nouvelles applications cibles. La simplicité fondamentale des services de données les rend accessibles à un large éventail de professionnels de l’informatique n’ayant pas d’expertise spécifique en matière d’intégration de données. Les services de données sont une solution idéale pour les entreprises qui doivent produire et fournir en temps voulu des informations complètes et exactes.
Une plate-forme d’intégration de données d’entreprise facilite le développement et le déploiement rapides de services de données évolutifs. Cette technologie peut servir de pierre angulaire à une infrastructure d’intégration rendant l’entreprise plus flexible en lui permettant de maximiser la valeur des informations produites et délivrées en temps voulu grâce aux services de données.
Un vrai hub de données opérationnelles
Un hub de données opérationnelles est utilisé pour partager efficacement et avec fiabilité des informations entre des applications, afin de servir des objectifs opérationnels clés. Les hubs d’intégration de données en temps réel englobent la diffusion et la consolidation de données, les projets de Master Data Management (Gestion des Données de Référence) et le partage de données transactionnelles. Les projets de ce type nécessitent fréquemment l’orchestration de processus d’intégration de données, afin de mettre en oeuvre des règles de routage de données, la certification de la bonne intégration de données, ainsi que des interactions humaines sur la base d’actions spécifiques (par exemple, mise à jour de données, résolutions de conflits, etc.).
Le pilotage événementiel de l’intégration de données
L’intégration de données pilotée par événement est utilisée pour réagir au fil de l’eau lorsqu’un événement se produit, ou pour anticiper certains événements avant qu’il ne soit trop tard pour réagir. La capture de données différentielle (CDC, Change Data Capture) est une méthode d’écoute des transactions sur les bases de données destinée à déceler directement les modifications de données survenant là où elles se trouvent. Cette méthode permet de surmonter les limites des solutions EAI traditionnelles, qui capturent uniquement des parties sélectionnées des données publiées par des transactions prédictives. Dans de nombreux cas, les changements de données ne sont pas prédictibles, et se traduisent par des irrégularités et des incohérences. Un accès direct aux modifications des données, au moment où elles surviennent, permet de faire face à des initiatives telles que la gestion du risque ou la détection des fraudes, qui exigent une action immédiate, automatisée ou basée sur une décision humaine. Les revendeurs utilisent aussi CDC pour détecter les ruptures de stock à venir, et déclencher une action de réapprovisionnement automatique ou adresser directement une alerte au fournisseur.
Pilotage par processus ou interventions humaines
Une technologie de services de données permet l’orchestration ou le séquençage de services de données élémentaires, afin de créer des combinaisons de tâches d’intégration de données à la fois flexibles, sophistiquées et réutilisables dans d’autres projets et processus métiers. En outre, elle permet d’incorporer des interventions humaines dans un workflow, par exemple pour le traitement manuel des exceptions et la gestion des erreurs. Elle présente ces intégrations ou orchestrations de données sous forme d’interfaces standardisées, telles que des fichiers WSDL (Web Services Description Language).
Des services de données évolutifs faciles à déployer et à superviser
La technologie de services de données permet à plusieurs applications clientes d’exécuter simultanément leurs flux d’intégration de données dans le cadre d’un workflow d’intégration unifié, ce qui permet d’utiliser au mieux des ressources informatiques souvent limitées. Par ailleurs, la technologie peut adapter automatiquement le nombre d’instances actives d’un service de données afin d’utiliser toutes les ressources d’une grille de serveurs. Elle peut ainsi prendre en charge un grand nombre d’utilisateurs concurrents, situation typique des environnements de centres de compétences en intégration (ou ICC, integration competency center).
Les services de qualité de données deviennent proactifs
La technologie de services de données facilite la mise en place de politiques d’amélioration continue de la qualité de données par le biais de services de qualité de données intégrés et proactifs. En effet, elle permet de développer et de gérer des services de qualité de données couvrant le profiling, le nettoyage, le rapprochement, la normalisation, l’enrichissement et la correction automatique afin de garantir l’exactitude et la valeur des données utilisées dans l’entreprise. Et elle fournit des fonctionnalités pour résoudre de manière proactive les problèmes de qualité de données, de façon à ce que les données mises à disposition des applications soient exactes dès le départ.
Transformations et échanges de données adaptables
Les services de données prennent en charge le pilotage par voie électronique d’activités impliquant des clients, des fournisseurs et d’autres types de partenaires. Ainsi, elle permet aux départements informatiques de faire face aux attentes croissantes des partenaires et des clients, aux variations en termes de volume et de types de transactions, ainsi qu’à l’augmentation de la taille de ces dernières. Tout en prenant en charge tous les formats de données, structurés comme non-structurés.
Cette technologie s’appuie sur les fonctionnalités et ressources d’une plate-forme complète pour optimiser la transformation de toutes les données provenant de réseaux de clients et de partenaires et les consolider avec les données et processus tant internes qu’externes. Grâce à elle, l’entreprise peut transformer tous les formats de données (structurés et non structurés) en n’importe quel autre format cible, en traitant la question de la qualité de données de manière intégrée et proactive.
Vers une gouvernance des données
La technologie de services de données permet une gestion renforcée en mettant à disposition de l’entreprise des fonctionnalités avancées de gouvernance de données ainsi que les meilleures pratiques dans ce domaine. Elle permet aux organisations de commencer par un seul service de données et d’en analyser les conséquences sur les sources de données sous-jacentes en visualisant sur une carte les dépendances entre les données. Cette technologie permet ainsi de prédire, évaluer et gérer l’impact des changements apportés par le service de données sans inspecter le code.