Une architecture Data Fabric crée une couche unifiée et intégrée pour accéder et gérer les données à travers l'ensemble de l'organisation, en mettant l'accent sur la connectivité et l'interopérabilité.
En revanche, une architecture Data Mesh adopte une approche décentralisée qui considère les données comme un produit, en privilégiant la gouvernance et la gestion spécifiques à chaque domaine par des équipes dédiées.
Dans cet article, nous explorerons les concepts clés, les avantages, les cas d’usages et les éléments à considérer pour chacune de ces architectures
À la fin, vous aurez une compréhension approfondie de ces paradigmes et serez en mesure de faire les bons choix pour mieux exploiter le potentiel de vos données.
Comprendre la Data Fabric
Une architecture Data Fabric est un ensemble de services de gestion des données qui offre des capacités cohérentes sur une large gamme de points de contact dans des environnements hybrides et multi-cloud. Elle intègre différents processus de gestion des données, tels que la découverte, la gouvernance et l’orchestration, en traitant les données comme une couche unique et accessible.
Autrement dit, la Data Fabric connecte et gère les données de manière fluide, qu’elles soient stockées sur les serveurs de l’entreprise ou réparties sur différents services cloud. Elle garantit que, où que vos données se trouvent, vous pouvez y accéder et les utiliser facilement et de manière fiable.
Principes fondamentaux de la Data Fabric
Les principes clés de la Data Fabric reposent sur l'agilité, la flexibilité et une vue unifiée des données à travers l'ensemble de l'entreprise.
- Agilité : La Data Fabric permet une adaptation rapide aux nouvelles sources de données et aux besoins changeants de l'entreprise.
- Flexibilité : Elle prend en charge une large gamme de sources de données, de types et de lieux de stockage.
- Vue unifiée : Elle offre une approche globale de la gestion des données, permettant l'accès à toutes les données au sein de l'organisation.
Architecture de la Data Fabric
L'architecture Data Fabric soutient la stratégie avec plusieurs composants clés.
- Pipelines de données : Les pipelines automatisés gèrent l'ingestion, la transformation et le déplacement des données.
- Gouvernance des données : Des politiques garantissent la qualité, la confidentialité et la conformité des données.
- Orchestration des données : Une approche coordonnée gère les données à travers les systèmes.
Exemple de mise en place d'une Data Fabric
Prenons l'exemple d'une entreprise multinationale de services financiers qui doit intégrer, gérer et accéder aux données à travers plusieurs divisions, telles que la banque, les investissements et les services d'assurance.
Cette entreprise fait face au défi d'accéder, d'analyser et de gouverner des données présentes sur différents systèmes et plateformes, notamment des environnements cloud, des centres de données sur site et des services de données tiers. Pour relever ces défis, l'entreprise met en place une architecture Data Fabric qui permet :
- Intégration transparente des données : La Data Fabric intègre les données provenant de diverses sources, telles que les bases de données transactionnelles, les CRM, les flux de données de marché et les services de stockage cloud. Cette intégration est facilitée par des technologies de virtualisation des données et d'ETL (Extraction, Transformation, Chargement), permettant un accès en temps réel aux données et, dans certains cas, sans nécessiter de déplacer ou de répliquer physiquement les données entre les systèmes ou les équipes.
- Gouvernance et qualité des données unifiées : L'approche Data Fabric intègre une architecture de données centralisée qui applique des politiques cohérentes de qualité, de confidentialité et de sécurité des données sur toutes les sources. Cela peut inclure des mécanismes de classification des données, de suivi de la lignée des données et de surveillance de la conformité.
- Accès en libre-service aux données : L'architecture offre une plateforme de données en libre-service et des outils de découverte pour les utilisateurs métiers, réduisant ainsi les goulets d'étranglement informatiques et permettant une prise de décision plus rapide. Les utilisateurs peuvent interroger et visualiser les données à travers l'ensemble de l'entreprise via une interface unifiée, quel que soit l'endroit où les données sont physiquement stockées.
Résultats
En mettant en place une architecture Data Fabric, l'entreprise obtient une vue d'ensemble de ses actifs de données, améliore l'efficacité opérationnelle et renforce ses capacités décisionnelles.
L'architecture permet à l'entreprise de mieux gérer les risques, d'offrir des services personnalisés à ses clients et de favoriser l'innovation, tout en maintenant des normes élevées de gouvernance des données et de conformité.
Comprendre la Data Mesh
L'approche Data Mesh gagne en popularité en tant que cadre socio-technique décentralisé pour la gestion des données analytiques à grande échelle. Une Data Mesh considère les données comme un produit, en mettant l'accent sur l'importance de la propriété décentralisée des données, orientée par domaine, ainsi que sur l'architecture qui l'accompagne.
Dans ce cadre, chaque domaine au sein de l'organisation est responsable de la fourniture et de la maintenance de ses données en tant que produit, rendant ainsi les équipes de domaine responsables de la qualité et de l'accessibilité des données.
Principes fondamentaux de la Data Mesh
- Propriété décentralisée des données orientée par domaine et architecture : Une Data Mesh préconise une conception où les données sont gérées par des équipes spécifiques à chaque domaine, favorisant une meilleure compréhension du contexte et de l’utilisation des données.
- Infrastructure de données en libre-service en tant que plateforme : L'objectif est de créer une plateforme de données en libre-service permettant aux équipes de domaine de créer facilement leurs propres produits de données et de faciliter la découverte des données, sans nécessiter une expertise technique approfondie sur les systèmes de données distribuées.
- Interopérabilité et communication standardisée : Une Data Mesh impose généralement des protocoles standardisés pour garantir que différents produits de données puissent communiquer et s'intégrer entre eux de manière fluide.
- Gouvernance par observabilité : Une Data Mesh adopte généralement une gouvernance décentralisée des données, utilisant une vue globale de tous les domaines pour garantir la conformité, la standardisation et la qualité des données.
Considérations organisationnelles pour la Data Mesh
La mise en place d'une Data Mesh nécessite que l'organisation adopte un changement culturel en faveur de la démocratisation des données et repense les rôles et responsabilités traditionnels.
- Autonomisation de l'expertise métier : Les équipes doivent posséder les compétences et les connaissances nécessaires pour gérer leurs produits de données de manière autonome.
- Investissement technique : Une infrastructure soutenant les capacités en libre-service est essentielle pour la mise en œuvre d'une Data Mesh.
- Gestion du changement : Les organisations doivent se préparer aux changements de gouvernance et de processus qui accompagnent la transition vers l'approche Data Mesh.
Exemple de mise en place d'une Data Mesh
Prenons l'exemple d'une grande entreprise de commerce en ligne opérant à l'échelle mondiale, avec plusieurs gammes de produits (électronique, articles pour la maison, vêtements, et produits alimentaires). Cette entreprise fait face à des difficultés liées aux silos de données entre ses différents départements, entraînant des inefficacités, des analyses de données incohérentes et des difficultés à innover rapidement pour répondre aux besoins des clients.
Pour surmonter ces défis, l'entreprise adopte une architecture Data Mesh, mettant l'accent sur la décentralisation de la gestion des données et l'architecture orientée par domaine.
Scénario de mise en œuvre
Chaque ligne de produits est considérée comme un domaine distinct avec ses propres produits de données, qui sont possédés et gérés par des équipes pluridisciplinaires composées de membres des départements IT, science des données, opérations et des unités commerciales.
- Propriété des données orientée par domaine : Les divisions électronique, articles pour la maison, vêtements et produits alimentaires prennent chacune la responsabilité de leurs données, y compris leur qualité, leur gouvernance et leur gestion tout au long de leur cycle de vie. Ce changement permet aux équipes de prendre des décisions rapides et éclairées basées sur leurs analyses de données.
- Infrastructure de données en libre-service : L'entreprise investit dans la création d'une plateforme de données en libre-service qui permet à chaque équipe de domaine d'accéder, de traiter et d'analyser les données sans dépendre fortement des ressources informatiques centrales. Cette plateforme inclut des outils pour l'ingestion de données, leur traitement, leur stockage et leur analyse, adaptés aux besoins spécifiques de chaque domaine.
- Interopérabilité et communication standardisée : Malgré la décentralisation, l'entreprise établit des standards communs pour les formats de données, les API et les protocoles afin d'assurer l'interopérabilité entre les produits de données des différents domaines. Cela permet un partage et une intégration des données sans friction, facilitant l'analyse et l'extraction d'insights à l'échelle inter-domaines.
- Les données comme produit : Chaque domaine traite ses données comme un produit, en mettant l'accent sur les besoins des utilisateurs, la facilité d'utilisation et la valeur. Cela inclut la définition de spécifications claires pour les produits de données, la maintenance de la documentation et l'assurance que les produits de données sont facilement découvrables et accessibles par les autres domaines et parties prenantes au sein de l'entreprise.
- Gouvernance par l'observabilité : L'entreprise met en place un modèle de gouvernance fédérée qui équilibre autonomie et responsabilité. Chaque domaine est responsable du respect des normes de gouvernance des données à l'échelle de l'entreprise, tandis qu'un cadre centralisé d'observabilité surveille la conformité, la qualité des données et leur utilisation à travers tous les produits de données.
Résultats
Adopter une architecture Data Mesh permet à l'entreprise de commerce en ligne de briser les silos de données, favorisant ainsi la collaboration et l'innovation à travers ses différentes gammes de produits. En donnant aux équipes spécifiques à chaque domaine la possibilité de gérer leurs données de manière autonome, l'entreprise parvient à réduire le temps de mise sur le marché pour de nouvelles fonctionnalités et services, à améliorer la personnalisation de l'expérience client et à répondre plus rapidement aux évolutions du marché.
Dans le même temps, les standards d'interopérabilité et le modèle de gouvernance fédérée garantissent que les données restent un actif stratégique cohérent à travers l'ensemble de l'entreprise.
Comparaison entre la Data Fabric et la Data Mesh
Similitudes:
- Les deux approches visent à améliorer l'accessibilité et l'utilisabilité des données à travers l'ensemble de l'entreprise.
- Elles encouragent une approche architecturale de la gestion des données.
- Elles ne sont pas liées à une technologie spécifique, mais sont des cadres conceptuels.
Différences
Choisir entre la Data Fabric et la Data Mesh : un guide pratique pour faire le bon choix
Le choix entre une architecture Data Fabric et une architecture Data Mesh dépend des besoins spécifiques, des défis et des capacités existantes de gestion des données de votre organisation.
Voici quelques éléments à prendre en compte pour déterminer quelle approche pourrait être la plus adaptée.
Envisagez la Data Fabric si votre organisation :
- Dispose d'un paysage de données complexe et distribué nécessitant un accès et une intégration fluide des données provenant de diverses sources, environnements (cloud, sur site, edge) et plateformes.
- Priorise une vue unifiée des données à travers l'organisation pour soutenir les efforts d'analytique, de data science et d'intelligence d'affaires, sans vouloir réorganiser l'infrastructure existante.
- Rencontre des défis en matière de gouvernance des données et de qualité à travers des systèmes disparates et a besoin d'un mécanisme centralisé pour garantir la cohérence, la conformité et le contrôle.
- Recherche évolutivité et flexibilité dans la gestion des données tout en minimisant la complexité pour les utilisateurs finaux, y compris les parties prenantes non techniques
Envisagez la Data Mesh si votre organisation :
- Opère dans un environnement axé sur les domaines, où différentes unités commerciales ou équipes ont des besoins en données distincts et bénéficieraient de la gestion et de la propriété de leurs produits de données.
- Rencontre des goulets d'étranglement dans l'accès et l'utilisation des données en raison de pratiques de gestion des données centralisées, ralentissant l'innovation et la prise de décision.
- Souhaite favoriser une culture de démocratisation des données et de responsabilité, en permettant aux équipes d'innover et de prendre des décisions basées sur leurs propres analyses de données locales.
- A atteint un certain niveau de maturité dans ses capacités numériques et en matière de données, avec des équipes capables de gérer les responsabilités technologiques et opérationnelles associées à la propriété décentralisée des données.
Orientations générales
- Taille et complexité de l'organisation : Les organisations de plus grande taille, plus complexes, disposant de sources de données variées et de besoins stricts en matière de gouvernance, peuvent se tourner vers une Data Fabric en raison de ses caractéristiques d'intégration et de gestion centralisée. À l'inverse, les organisations avec une forte culture d'autonomie et d'agilité, où les unités commerciales fonctionnent de manière plus indépendante, pourraient trouver la Data Mesh plus attrayante.
- Maturité dans la gestion des données : Si votre organisation est encore en train de développer ses pratiques de gestion des données, commencer par une Data Fabric pourrait fournir la couche fondamentale d'intégration et de gouvernance nécessaire. Au fur et à mesure de la maturation, l'intégration des principes de Data Mesh peut renforcer l'autonomie et favoriser l'innovation.
En résumé
Alignez votre choix sur vos objectifs stratégiques. Si votre priorité est d'améliorer l'efficacité, de réduire les silos opérationnels et de renforcer la gouvernance des données à grande échelle, une Data Fabric est probablement la meilleure option. Si votre objectif est de stimuler l'innovation, d'accélérer la prise de décision et de donner aux équipes une autonomie en matière de données, envisagez une Data Mesh.
Bloor Spotlight :
Aperçu de la Data Fabric
Approfondissement des comparaisons techniques
Accès et gestion des données
Une architecture Data Fabric est conçue pour offrir une couche unifiée et cohérente d'accès et de gestion des données à travers des sources variées, incluant les bases de données sur site, le stockage dans le cloud et même les appareils en périphérie.
Elle exploite des technologies telles que la virtualisation des données et le traitement de requêtes fédérées, permettant un accès en temps réel et une intégration des données provenant de ces différentes sources sans nécessiter leur réplication dans un emplacement centralisé.
Les solutions Data Fabric s'appuient souvent sur des techniques avancées de gestion des métadonnées et des capacités de recherche intelligente pour faciliter la découverte et la gouvernance des données à l'échelle de l'organisation.
En revanche, une Data Mesh décentralise la gestion des données en les considérant comme un produit, avec des équipes spécifiques à chaque domaine qui possèdent et gèrent leurs données.
Chaque équipe est responsable du cycle de vie de ses données, incluant leur stockage, leur qualité et leur accessibilité, en utilisant des technologies adaptées aux besoins spécifiques de leur domaine, telles que des bases de données optimisées pour des types de données ou des processus particuliers.
Stockage et traitement des données
Les architectures Data Fabric reposent souvent sur un lac de données, plusieurs entrepôts de données et des solutions de stockage multi-cloud, intégrés via une couche unifiée de gestion des données.
Cette configuration prend en charge à la fois le traitement par lots et en temps réel, les analyses, ainsi que les workflows d'apprentissage automatique, permettant aux organisations de tirer des insights de leurs données, quel que soit leur emplacement.
En revanche, une approche Data Mesh ne prescrit pas de technologies spécifiques pour le stockage ou le traitement.
Elle se concentre plutôt sur l’autonomisation des domaines pour qu’ils choisissent les outils et l’infrastructure adaptés à leurs besoins, que ce soit une base de données relationnelle traditionnelle, une base NoSQL pour des données non structurées, ou des moteurs de traitement en temps réel comme Apache Kafka ou Apache Spark.
L’accent est mis sur la capacité des équipes de domaine à construire et gérer indépendamment leurs produits de données, en se focalisant sur les exigences spécifiques de leur domaine plutôt que sur une solution universelle.
Défis techniques en matière d'interopérabilité
L'interopérabilité est un enjeu crucial pour les systèmes Data Fabric et Data Mesh, bien qu'abordée différemment dans chaque cas.
Les Data Fabric résolvent l'interopérabilité grâce à la mise en œuvre d'API standardisées, de modèles de données et de protocoles au sein de leur couche unifiée de gestion des données.
Cela exige une planification rigoureuse en amont et une gestion continue pour garantir que les sources de données nouvelles et existantes puissent être intégrées et accessibles sans effort à travers la Fabric.
Les Data Mesh, quant à elles, s'appuient sur des principes de conception orientés domaine, encourageant l’utilisation de formats de données communs, d’API et de protocoles standardisés pour les produits de données.
Cette architecture de données décentralisée nécessite un engagement organisationnel fort envers la standardisation et la gouvernance pour éviter les silos de données et garantir que les produits de données puissent être facilement partagés et intégrés entre les domaines.
Les deux architectures affrontent des défis pour assurer que les données restent accessibles, gouvernées et sécurisées à travers différents environnements et technologies.
Cependant, en s’appuyant sur des pratiques modernes de gestion des données et des outils adaptés, les organisations peuvent atténuer ces défis et exploiter pleinement la valeur de leurs actifs de données.
InterSystems et la Smart Data Fabrics/Data Meshes : vers une gestion avancée des données
InterSystems IRIS et Data Fabric Studio sont des solutions complètes conçues pour révéler le véritable potentiel des données dans les entreprises confrontées à la montée en volume, en variété et en complexité de leurs actifs de données.
En répondant aux défis posés par les silos de données et d'applications, ces solutions favorisent une gestion des données plus intégrée, efficiente et exploitable à travers l'organisation.
InterSystems et la Data Fabric
InterSystems propose deux solutions puissantes pour la mise en œuvre d'architectures data fabric :
InterSystems IRIS
InterSystems IRIS occupe une place centrale dans une architecture Data Fabric grâce à ses capacités complètes de gestion des données. Ses principales caractéristiques comprennent :
Intégration et gestion des données
InterSystems IRIS offre des fonctionnalités robustes pour intégrer des données provenant de diverses sources. Cette capacité en fait un élément clé pour la couche d'accès et de gestion unifiée des données au cœur de la Data Fabric. Sa compatibilité avec les modèles SQL et NoSQL, ainsi que son support des transactions et des analyses concurrentes, répondent aux besoins de flexibilité et d'évolutivité.
Analytique en temps réel et apprentissage automatique Avec un support intégré pour l'analytique en temps réel, l'intelligence d'affaires et l'apprentissage automatique, InterSystems IRIS peut intégrer des capacités avancées d'analyse directement dans la Data Fabric, permettant ainsi des insights et une prise de décision plus rapide.
Interopérabilité et connectivité
La plateforme offre de solides fonctionnalités d'interopérabilité, permettant une connexion fluide entre des systèmes et des sources de données disparates, un critère essentiel pour créer une Data Fabric homogène. Cela inclut la prise en charge de divers standards et protocoles de données pour faciliter la communication entre les environnements.
InterSystems Data Fabric Studio
InterSystems Data Fabric Studio est une solution spécialisée qui simplifie la mise en œuvre et la gestion des architectures Data Fabric.
Accès unifié aux données
Un point d'accès unique à toutes les données de l'entreprise, quel que soit leur emplacement ou leur format, favorisant une intégration fluide des données.
Environnement de développement visuel
Une interface intuitive pour concevoir et implémenter des solutions Data Fabric, réduisant la complexité et accélérant le temps de développement.
Services avancés de données
Des capacités intégrées de transformation, gestion de la qualité et gouvernance des données, garantissant la fiabilité des données à l'échelle de l'entreprise.
Architecture évolutive
Un support des volumes croissants de données et des besoins métier en constante évolution, grâce à une architecture flexible et évolutive.
Traitement en temps réel
Des capacités de traitement et d'analyse en temps réel, facilitant des décisions immédiates.
InterSystems et Data Mesh
Bien que le Data Mesh mette l'accent sur la propriété décentralisée des données et la conception orientée par domaine, les solutions d’InterSystems peuvent jouer un rôle de soutien, notamment dans les domaines suivants :
Services de données spécifiques à un domaine
Les capacités d'InterSystems IRIS et de Data Fabric Studio peuvent être utilisées pour développer et gérer des services de données par domaine, soutenant ainsi l'autonomie des équipes dans la gestion de leurs produits de données.
Gouvernance et observabilité des données
Même si le Data Mesh préconise une gouvernance décentralisée, les solutions d’InterSystems offrent des outils pour la qualité des données, leur sécurité et leur conformité, que chaque domaine peut utiliser. Elles incluent également des fonctionnalités d’observabilité pour surveiller la santé et l’utilisation des produits de données à travers le mesh.
Prochaines étapes
Les solutions complètes de gestion des données proposées par InterSystems incarnent l’avenir de la gestion des données, en s’alignant sur les principes des Smart Data Fabrics et en offrant des passerelles potentielles vers la mise en œuvre d’architectures Data Mesh.
Grâce à leur intégration analytique, leur compatibilité avec les systèmes existants et leurs performances élevées, ces solutions permettent aux organisations d'atteindre de nouveaux niveaux d'efficacité, de connaissance et de valorisation de leurs actifs de données.