数据编织(data fabric)是一种架构,它创建了一个统一、集成的层,用于在整个组织中访问和管理数据,重点在于连接性和互操作性。
而数据网格(data mesh)则是一种去中心化的方法,将数据视为一种产品,强调由各个团队负责其特定领域的所有权和管理。
在本文中,我们将详细阐述每种方法的核心概念、优势、实际应用和考虑因素。
读完本文后,您将全面了解这些范式,并知道如何做出明智的决策,以更好地利用您的数据力量。

了解数据编织(data fabric)
数据编织(data fabric)是一种架构和一组数据服务,可为混合云和多云环境中的各种终端提供一致的功能。 它整合了不同的数据管理流程,包括数据发现、治理和协调,将数据视为单一的、可访问的层。
换句话说,数据结构是一个系统,无论数据是存储在公司自己的计算机内,还是跨不同的云服务,它都能顺利地连接和管理数据。 它可确保无论您的数据在哪里,您都能轻松可靠地访问和使用这些数据。
数据编织的核心原则
数据编织的核心原则围绕着敏捷性、灵活性和整个企业的统一数据视图。
- 敏捷性(Agility):数据编织可快速适应新的数据源和不断变化的业务需求。
- 灵活性(Flexibility):它支持多种数据源、类型和存储位置。
- 统一视图(Unified View):提供整体数据管理方法,可访问组织内的所有数据。
数据编织架构
数据编织架构是该战略的基础,由几个关键部分组成。
- 数据管道:自动管道处理数据的摄取、转换和移动。
- 数据治理:通过政策确保数据质量、隐私和合规性。
- 数据协调:跨系统管理数据的协调方法。
数据编织示例
以一家跨国金融服务公司为例,该公司需要在包括银行、投资和保险服务在内的多个全球部门之间集成、管理和访问数据。
该公司面临着访问、分析和治理位于不同系统和平台(包括云环境、本地数据中心和第三方数据服务)中的数据的挑战。 为了应对这些挑战,该公司实施了一种数据编织架构,从而能够:
- 数据无缝集成:数据编织集成了各种来源的数据,包括交易数据库、客户关系管理系统、市场数据源和云存储服务。 数据虚拟化和 ETL(提取、转换、加载)技术为这种集成提供了便利,允许实时访问和操作数据,在某些情况下,不需要跨系统或数据团队实际移动或复制数据。
- 统一数据管理和质量:数据编织方法采用集中式数据架构,在所有数据源中应用一致的数据质量、隐私和安全策略。 这可以包括数据分类、数据行踪跟踪和合规性监控机制。
- 自助式数据访问:该架构为业务用户提供自助式数据平台和发现工具,从而减少 IT 瓶颈,加快决策速度。 用户可以通过统一的界面查询和可视化整个企业的数据,而无需考虑数据的物理位置。
成果
通过实施数据编织,这家金融服务公司可以全面了解其数据资产,提高运营效率,并增强决策能力。
该架构使该公司能够更有效地管理风险,为客户提供个性化服务,并推动创新,同时保持高标准的数据治理和合规性。
了解数据网格(data mesh)
数据网格(data mesh)方法作为一种用于大规模管理分析数据的分散式社会技术框架,正受到越来越多的关注。 数据网格承认数据是一种产品,强调面向领域的分散式数据所有权和架构的重要性。
在此框架中,组织内的每个领域都负责将其数据作为产品提供和维护,使领域团队对数据的质量和可访问性负责。

数据网格原则
- 领域导向(domain-oriented)的数据所有权和架构:数据网格倡导一种由特定领域团队管理数据的设计方式,以促进对数据上下文和用法的更清晰理解。
- 自助式数据基础设施即平台:目标是建立一个自助式数据平台,使领域团队能够轻松构建自己的数据产品,并促进数据发现,而无需具备分布式数据系统的深厚技术专长。
- 互操作性和标准通信:数据网格通常会执行标准化协议,以确保不同的数据产品能够无缝地相互通信和集成。
- 通过可观测性进行治理:数据网格通常采用去中心化的数据治理方式,利用对所有领域的全局视图来确保合规性、标准化和质量。
数据网格的组织考量
要实施数据网格,企业就必须转变文化,实现数据民主化,并重新思考传统的角色和责任。
- 领域专家授权:团队必须具备自主管理数据产品的技能和知识。
- 技术投资:支持自助服务功能的基础设施是实施数据网格的基础。
- 变革管理:企业必须为过渡到数据网格方法所带来的管理和流程变革做好准备。
数据网格示例
以一家大型电子商务公司为例,该公司在全球开展业务,拥有多条产品线,包括电子产品、家居用品、服装和杂货。 这家公司面临不同部门间的数据孤岛问题,导致效率低下、数据分析不一致,以及在快速创新以满足客户需求方面面临挑战。
为了克服这些挑战,该公司采用了数据网格架构,强调去中心化的数据所有权和领域导向的数据架构。
实施方案
每个产品线都被视为一个独立的领域,拥有自己的数据产品,由来自 IT、数据科学、运营和业务部门的成员组成的跨职能团队负责和管理。
- 领域导向的数据所有权:电子产品部、家居用品部、服装部和杂货部各自负责其数据,包括数据质量、治理和生命周期管理。 这种转变使团队能够根据数据洞察力做出快速、明智的决策。
- 自助式数据基础设施:公司投资建设自助式数据平台,使每个领域的团队都能访问、处理和分析数据,而无需严重依赖中央 IT 资源。 该平台包括用于数据摄取、处理、存储和分析的工具,可根据每个领域的需求量身定制。
- 互操作性和标准化通信:尽管是分散式的,但公司还是为数据格式、API和协议建立了通用标准,以确保不同领域数据产品之间的互操作性。 这样就可以实现无缝数据共享和集成,促进跨领域分析和洞察。
- 将数据视为产品:每个领域都将其数据视为产品,重点关注用户需求、可用性和价值。 这包括定义清晰的数据产品规格、维护文档,以及确保数据产品可被公司内其他领域和利益相关者发现和访问。
- 通过可观测性进行治理:该公司实施了一种联邦治理模型,在自主性与责任之间取得了平衡。 每个领域都负责遵守全公司的数据管理标准,而集中式可观测性框架则负责监控所有数据产品的合规性、数据质量和使用情况。
成果
采用数据网格使这家电子商务公司能够打破数据孤岛,加强其不同产品线之间的协作和创新。 通过赋予特定领域团队独立管理其数据的权力,该公司实现了新功能和服务更快的上市时间、提升了客户个性化体验,以及对市场变化更加敏捷的响应。
同时,互操作性标准和联邦治理模型确保数据在整个公司中仍然是一个统一、具有战略意义的资产。
数据编织与数据网格的比较
相似之处
- 两者都旨在提高整个企业数据的可访问性和可用性。
- 它们鼓励采用架构方法进行数据管理。
- 它们与特定技术无关,而是概念框架。
差异

选择数据编织还是数据网格:快速指南
在数据编织(data fabric)和数据网格(data mesh)之间做出选择,取决于您组织的特定需求、挑战以及现有的数据管理能力。
以下是一些可以考虑的因素,有助于帮助您确定更合适的方法。
如果您的组织具备以下方面,请考虑数据编织:
- 拥有复杂的分布式数据环境,需要跨各种来源、环境(云、内部部署、边缘)和平台无缝访问和整合数据。
- 优先考虑整个组织的统一数据视图,以支持分析、数据科学和商业智能工作,而无需全面改造现有基础设施。
- 在不同系统间的数据管理和质量方面面临挑战,需要一个中央机制来确保一致性、合规性和控制。
- 寻求数据管理的可扩展性和灵活性,同时尽可能降低终端用户(包括非技术利益相关者)的复杂性。
如果您的组织具备以下方面,请考虑数据网格:
- 领域导向的工作环境,不同的业务部门或团队有不同的数据需求,并能从拥有和管理其数据产品中获益。
- 由于采用集中式数据管理方法,在数据访问和利用方面遇到瓶颈,减缓了创新和决策速度。
- 旨在培养数据民主化和问责制文化,使团队有能力根据本地数据洞察力进行创新和决策。
- 已在数字化和数据能力方面成熟,团队能够承担起去中心化数据所有权所带来的技术和运营责任。
一般性指导
- 组织规模和复杂性:规模更大、更复杂的组织拥有多种数据源和严格的管理要求,可能会倾向于使用数据编织,因为它具有集成和集中管理的功能。 相反,那些具有强烈自主性和灵活性文化的组织,其业务部门的运作更加独立,可能会发现数据网格更有吸引力。
- 数据管理的成熟度:如果贵组织仍在发展数据管理实践,那么 从数据编织开始可能会提供所需的集成和治理基础层。 随着成熟度的提高,纳入数据网格原则可进一步增强自主性和创新性。
底线
根据战略目标做出选择。 如果目标是提高效率、减少操作孤岛并大规模加强数据治理,那么数据编织可能是您的最佳选择。 如果目标是提高创新能力、加快决策速度并赋予团队数据自主权,可以考虑采用数据网格。
Bloor Spotlight:
数据编织概览
更深入的技术比较
数据访问和管理
数据编织旨在为各种数据源(包括本地数据库、云存储甚至边缘设备)提供统一且一致的数据访问和管理层。
它利用数据虚拟化和联邦查询处理等技术,实现从这些不同数据源实时访问和集成数据,而无需将数据复制到集中位置。
数据编织解决方案通常会采用先进的元数据管理技术和智能搜索功能,以便在整个组织中更轻松地发现和治理数据。相比之下,
数据网格通过将数据视为产品来实现数据管理的去中心化,由特定领域团队拥有和管理其数据。
每个团队负责其数据的全生命周期,包括存储、质量和可访问性,使用最适合其领域需求的技术,如针对特定类型数据或处理需求定制的数据库。
数据存储和处理
数据编织架构通常采用一个数据湖、多个数据仓库和多云存储解决方案,并通过统一的数据层进行集成。
这种设置支持批量和实时数据处理、分析和机器学习工作流,使企业能够从数据中获得洞察力,而无论数据位于何处。
数据网格方法通常不规定特定的存储或处理技术。
而是侧重于使每个领域都能选择最符合其需求的工具和基础设施,无论是传统的关系数据库、用于非结构化数据的 NoSQL 数据库,还是 Apache Kafka 或 Apache Spark 等实时处理引擎。
重点是授权领域团队独立构建和管理其数据产品,并侧重于特定领域的需求,而不是一刀切的解决方案。
技术互操作性挑战
对于数据编织和数据网格系统而言,互操作性都是一个至关重要的考量因素,尽管两者从不同的角度出发来处理这一问题。
数据编织通过在其集成数据管理层实施标准化的API、数据模型和协议来解决互操作性问题。
这需要大量的前期规划和持续的管理,以确保新的和现有的数据源能够通过织网实现无缝集成和访问。
数据网格则通过采用领域驱动设计原则来解决互操作性问题,鼓励为数据产品使用通用的数据格式、API和协议。
这种去中心化的数据架构需要组织在标准化和治理方面做出坚定承诺,以避免数据孤岛,并确保数据产品能够在领域边界之间轻松共享和集成。
这两种架构在确保数据在不同环境和技术中保持可访问性、可治理性和安全性方面都面临着挑战。
然而,通过利用现代数据管理实践和工具,组织可以缓解这些挑战,并充分利用其数据资产的价值。
InterSystems 和智能数据编织/数据网格:实现高级数据管理
InterSystems IRIS 和 Data Fabric Studio(数据编织工作室)是全面的解决方案,旨在发掘数据的真正潜力,帮助企业应对数据资产数量、种类和复杂性不断增加的问题。
通过解决普遍存在的数据和应用孤岛问题,这些解决方案促进了跨组织数据的集成、高效和可操作性。
InterSystems 和数据编织
InterSystems 提供两种功能强大的解决方案,用于实施数据编织架构:
InterSystems IRIS
InterSystems IRIS 凭借其全面的数据管理能力,成为数据编织架构中的核心技术。 主要功能包括:
数据集成和管理
InterSystems IRIS 具有强大的功能,可集成各种来源的数据,因此非常适合作为数据编织核心的统一数据访问和管理层。 它既能处理SQL和NoSQL数据模型,又支持事务和并发分析,这与数据编织对灵活性和可扩展性的需求非常契合。
实时分析和机器学习
:InterSystems IRIS内置支持实时分析、商业智能和机器学习,可以直接在数据编织中嵌入高级分析能力,从而在整个组织中实现更快的洞察和决策。
互操作性和连接性
:该平台强大的互操作性功能允许不同系统和数据源之间的轻松连接,这是创建无缝数据编织的关键要求。 这包括支持各种数据标准和协议,促进不同环境和应用之间的通信。
InterSystems Data Fabric Studio
InterSystems Data Fabric Studio(InterSystems 数据编织工作室)是一款专业解决方案,可简化数据结构架构的实施和管理。 它提供:
统一数据访问
提供对所有企业数据的单点访问,无论其位置或格式如何,从而实现整个组织的无缝数据集成和管理。
可视化开发环境
具有设计和实施数据结构解决方案的直观界面,可降低复杂性并加快开发时间。
高级数据服务
提供用于数据转换、质量管理和治理的内置功能,确保整个企业的数据一致可靠。
可扩展架构
通过高度可扩展和灵活的架构,支持不断增长的数据量和不断变化的业务需求。
实时处理
实现实时数据处理和分析,支持企业数据管理。
InterSystems 和数据网格
数据网格强调分散的数据所有权和领域驱动的设计,而 InterSystems 解决方案可以发挥辅助作用,尤其是在以下方面:
特定领域的数据服务
InterSystems IRIS 和 Data Fabric Studio 的功能都可用于开发和管理特定领域的数据服务,支持领域团队自主管理其数据产品。 它们的可扩展性和性能能够满足以领域为中心的操作的高要求。
数据治理和可观测性
:尽管数据网格倡导去中心化的治理,但InterSystems的解决方案通过提供数据质量、安全性和合规性工具(这些工具可由各个领域单独利用)以及可观测性功能(用于监控数据网格中数据产品的健康状况和使用情况),来支持这种模型。
下一步
InterSystems 的综合数据管理解决方案体现了数据管理的未来,与智能数据编织的原则紧密结合,并为实施数据网格架构提供了潜在途径。
这些解决方案强调分析集成、传统系统兼容性和高性能功能,为企业从其数据资产中获得新的效率、洞察力和价值铺平了道路。