Data Mesh es un enfoque descentralizado de la gestión de datos donde estos se tratan como un producto y son propiedad de equipos multifuncionales, lo que fo menta su accesibilidad, escalabilidad y calidad en toda la organización, a través de una arquitectura orientada a dominios y una infraestructura de datos de autoservicio.
Esta guía desglosará la arquitectura data mesh, cómo funciona y qué significa para las operaciones de la empresa. Al finalizar, conoceremos las herramientas necesarias para escalar cualquier empresa y como mantenerla ágil ante los cambios.
Origen de Data Mesh
Zhamak Dhegani inventó el término data mesh allá por 2019 como una forma revolucionaria de gestionar los datos cruciales de una empresa.
Si se conoce la frase "no pongas todos los huevos en la misma cesta", ya se entiende la lógica de la arquitectura data mesh. Data Mesh se refiere a un enfoque descentralizado y ampliamente distribuido de la propiedad de los datos.
Principios centrales de Data MeshAunq
ue la arquitectura data mesh puede tener toques únicos en cada organización, los principios centrales son los mismos. Data mesh es un enfoque práctico de los datos que garantiza que ninguna entidad tenga demasiado control o responsabilidad.
A continuación se exponen sus principios básicos y su relación con herramientas similares como data lakes o el data fabric.
Propiedad y arquitectura de datos descentralizada y orientada al dominio
Es importante definir qué significa un dominio en el contexto de una arquitectura data mesh. En este caso, dominio se refiere a cualquier subconjunto o entorno de una entidad empresarial, que puede incluir empleados, proveedores, productos y clientes.
La propiedad de datos orientada al dominio significa que ninguna entidad tiene todo el control sobre cómo se almacenan, distribuyen o acceden a los datos. Entre las ventajas de la gestión descentralizada de datos figuran:
- Los consumidores de datos reciben acceso a los productos de datos directamente de sus propietarios en lugar de tener que pasar por varios intermediarios para obtener lo que necesitan
- Reducción de los cuellos de botella y de las canalizaciones de datos para garantizar una comunicación más fluida entre múltiples entidades
- Prevención de silos de datos entre diferentes dominios, evitando que los activos de datos queden aislados de las personas que los necesitan
Tratar los datos como un producto
Tratar los datos como un producto es otro potente resultado de data mesh, que ayuda a las empresas a obtener el máximo valor de sus activos.
Aunque los datos que se barajan no son técnicamente B2C -se dirigen a otros empleados de la empresa-, una mentalidad de producto es esencial para mantener el buen funcionamiento del sistema. Los trabajadores también necesitan un compromiso con la comunicación fluida y una organización coherente para hacer bien su trabajo.
Algunos de los rasgos necesarios para asegurar de que se está tratando a los datos como a un producto son:
- Facilitar la búsqueda en un catálogo de datos centralizado
- Convenciones de nomenclatura coherentes dentro de la organización para evitar confusiones o pérdidas de tiempo
- Funciones de control de calidad, como el examen de los datos tras métodos básicos de verificación
Definición de la infraestructura de datos de autoservicio
Profundicemos un poco más en data mesh para conocer cómo funciona una fuente de datos descentralizada en la práctica. Una infraestructura de datos de autoservicio garantiza que cada dominio tenga un cierto nivel de responsabilidad en el mantenimiento de un recurso de datos.
Independientemente del dominio empresarial, cada uno tiene su papel a la hora de filtrar, limpiar y cargar sus datos. Por ejemplo, dividir esta responsabilidad puede consistir en dar a los ingenieros de datos la capacidad de gestionar la tecnología de datos, mientras que los analistas de datos etiquetan y organizan los datos más tarde. Si el equipo es más pequeño, es posible que menos personas se hagan cargo de más responsabilidades. Algunas de las herramientas y plataformas que se pueden utilizar para la gestión descentralizada de datos son el almacenamiento descentralizado, el cifrado y las cadenas de bloques.
Desglose de la gobernanza de datos federada
Por último, pero no por ello menos importante, data mesh requiere un alto nivel de seguridad para funcionar correctamente. Con tantos dominios participando, todos tienen que asegurarse de que se comprometen a seguir las mejores prácticas para mantener la seguridad en el uso de los datos.
Cada dominio tiene la capacidad de ofrecer normas e implementaciones únicas en función de sus necesidades. Por ejemplo, un equipo puede no tener capacidad para renombrar datos, mientras que otro no puede eliminar duplicados sin aprobación previa.
Independientemente del tipo de gobernanza, será necesaria alguna forma de gobernanza, incluidas normas, políticas y prácticas aplicadas de forma coherente, así como analizar cómo se utilizará el producto de datos y quién lo hará.
Ventajas de Data Mesh
Ahora que ya conocemos qué es data mesh y para qué se utiliza, es hora de desglosar las ventajas económicas para las empresa. Crear productos de datos no es suficiente: hay que tener en cuenta la escalabilidad, la agilidad y la calidad.
Escalabilidad
Escalar no es fácil. Según McKinsey, sólo el 22 % de las empresasen los últimos diez años lo hicieron con éxito. La arquitectura data mesh ofrece la posibilidad de hacer crecer el negocio de forma fiable sin tener que revisar el presupuesto.
Dado que no depende de una plataforma de datos centralizada, la responsabilidad se distribuye de forma más uniforme. Una de las principales ventajas de esta distribución es la capacidad de innovar y rediseñar sobre la marcha, lo que facilita a los usuarios de datos acercarse a ellos de nuevas maneras.
La gobernanza independiente de una plataforma de datos de autoservicio ofrece un cierto nivel de libertad que no se encuentra en una estructura de datos central. Incluso si un equipo tiene problemas por limitaciones o cambios operativos recientes, otros miembros del equipo pueden seguir moviéndose relativamente sin obstáculos. Esta agilidad es otra de las ventajas, como se comprueba en la siguiente sección.
Agilidad
Cuando se crean productos de datos, hay que tener en cuenta cómo se descargarán o redistribuirán esos datos. Data mesh facilita que los distintos dominios se acerquen a los datos con mayor rapidez según las mejores prácticas de la organización, lo que reduce los retrasos o los tiempos de espera.
Desde la consulta hasta el descubrimiento, los dominios pueden ser más ágiles en su función y completar las tareas con mayor eficacia. Eso no significa que cualquiera pueda hacer lo que quiera -todavía existen buenas prácticas y limitaciones empresariales-, pero sin duda hay menos obstáculos.
Esta agilidad conduce a una innovación empresarial y una capacidad de respuesta al mercado significativas. Independientemente de hacia dónde se dirija la industria, se puede confiar en que la plataforma de datos de autoservicio de una empresa estará a la altura del desafío.
Mejora de la calidad de los datos
Mientras que el data lake se compone de datos en bruto que aún no se han organizado ni filtrado, data mesh requiere intrínsecamente más calidad de datos. Al tratar los datos como productos, se les aplica el mismo nivel de exigencia que a un cliente.
¿Qué aspecto tiene la calidad de los datos en la práctica? La calidad de los datos puede consistir en proporcionar a los equipos de dominio datos que hayan sido debidamente analizados y depurados de cualquier fallo, como archivos dañados o duplicados. También puede consistir en organizar mejor los datos no estructurados para que los usuarios puedan encontrarlos más fácilmente.
La mejora de la calidad de los datos garantiza que los usuarios puedan realizar su trabajo con mayor eficacia, lo que produce un efecto dominó positivo en toda la empresa. Pasar por alto la calidad de los datos en data mesh puede dar lugar a confusión, almacenamiento desperdiciado o silos de datos.
Colaboración reforzada
Desde los ingenieros de datos hasta el equipo central de datos, todos deben poder trabajar juntos de forma eficaz. Data mesh mejora la colaboración entre los equipos de dominio al asignar a cada uno tareas concretas para recopilar, analizar y utilizar los datos.
Dado que requiere un mantenimiento continuo para garantizar que los datos son lo suficientemente funcionales como para utilizarlos, la colaboración es una característica clave. Todos los equipos de dominio deben estar en contacto regular para garantizar que los productos (datos) mantienen un nivel de calidad coherente para las funciones empresariales. En general, data mesh permite mejorar los conocimientos interfuncionales y la toma de decisiones basada en datos.
Data mesh frente a otras arquitecturas de datos
Data Mesh no es la única arquitectura que se puede utilizar en la empresa. A continuación se presentan algunas variantes que se deberían tener en cuenta a la hora de organizar operaciones de datos más seguras y eficaces.
Data Mesh vs. Data Warehouses
A primera vista, data mesh y un almacén de datos pueden parecerse debido a que ambos tratan con grandes cantidades de productos de datos. Sin embargo, un almacén de datos es un enfoque más centralizado, mientras que una data mesh es descentralizada.
Un almacén de datos es muy atractivo porque simplifica la forma en que una empresa aborda los datos, consolidando todo en un único repositorio. Este enfoque puede ser útil para las empresas más pequeñas que aún no están seguras de querer el tamaño y la escala de data mesh. Sin embargo, el inconveniente de un almacén de datos es lo difícil que resulta ampliarlo. También es más limitado en su funcionalidad y no es tan ágil como data mesh.
Data mesh ofrece un enfoque descentralizado en el que múltiples equipos de dominio asumen la responsabilidad sobre cómo se almacenan, categorizan, distribuyen y utilizan los datos.
Data Mesh vs. Data Lakes
Data lake y data mesh existen en extremos casi opuestos del espectro. Un data lake ofrece un repositorio de datos brutos no estructurados, mientras que data mesh requiere un mayor nivel de organización.
¿Significa eso que uno es automáticamente mejor que el otro? No del todo. Un data lake es muy útil para las pequeñas empresas que necesitan reunir grandes cantidades de datos lo antes posible. Su baja barrera de entrada y su base ágil lo convierten en una herramienta útil para las empresas en crecimiento.
Dicho esto, un lago de datos sigue teniendo una funcionalidad limitada. Dado que sus datos están en bruto, problemas como archivos corruptos, duplicados y desorganizados se darán a conocer rápidamente.
Data Mesh vs. Data Fabric
Por último, pero no por ello menos importante, hay que tener en cuenta data fabric. Mientras que data mesh utiliza una base descentralizada para distribuir y utilizar los datos, data fabric requiere un planteamiento de datos central.
Data fabric no sólo requiere una estructura de datos central, sino que está mucho más automatizado que data mesh. La arquitectura data fabric requiere poca supervisión para recopilar datos de múltiples fuentes en una ubicación sencilla para que la gente pueda utilizarlos. Este enfoque hiperautomatizado puede resultar muy atractivo para las empresas que tienen una forma específica de trabajar y necesitan ahorrar el máximo tiempo posible.
¿Está preparado para data mesh? Preguntas clave
Ahora que sabemos cómo funciona data mesh y cómo beneficia a la empresa, llega el momento de preguntarse si debería implantarse. Antes de hacerlo, es importante considere unas preguntas clave para tener una mejor visión de cómo podría beneficiar a la organización.
Escala y complejidad organizativas
La primera pregunta en relación con una malla de datos es sobre el tamaño y la complejidad de la empresa. La organización ¿es lo suficientemente grande y compleja como para beneficiarse de un enfoque descentralizado?
Otras preguntas que debería plantearse son:
- ¿Existen problemas de escalabilidad con la arquitectura de datos actual?
- ¿Se dispone de varios equipos que podrían mejorar la colaboración entre ellos?
- ¿Alguno de los planes empresariales para los próximos años implica ampliar la organización?
Retos de la gestión de datos
La gestión de datos es un tema complejo que abarca desde cuestiones de seguridad hasta una organización adecuada. La mayoría de las organizaciones consideran que la gestión de datos es vital para el éxito, por lo que no puede permitirse no plantearse las siguientes preguntas.
- ¿Existen cuellos de botella en los datos, silos o problemas de calidad que obstaculizan las operaciones?
- ¿Es necesario mejorar la escalabilidad y agilidad en la gestión de los datos?
- ¿Se quiere un enfoque centralizado o descentralizado?
Conocimientos especializados de los empleados
Data mesh es tan buena como los usuarios de datos que la utilizan. Si es necesario perfeccionar sus conocimientos técnicos, data mesh puede suponer demasiado compromiso.
Conviene hacerse las siguientes preguntas sobre la composición del equipo de plataforma de datos para ver si debe hacerse el cambio:
- ¿Disponen los equipos de sólidos conocimientos específicos del sector?
- ¿Qué variedad de conocimientos específicos tiene?
- ¿Están preparados los equipos para asumir la propiedad de los datos como productos?
Aunque se responda negativamente a algunas de estas preguntas, eso no significa que la empresa no pueda contar con una arquitectura data mesh. Antes de tomar cualquier decisión es importante abordar estas cuestiones, porque la falta de preparación se convertirá en un problema más adelante.
Preparación cultural
Una data mesh es tanto una filosofía como un sistema de gestión de datos. Implantar uno requiere un nivel de compromiso, colaboración y determinación para tener éxito.
- ¿Está alineada la cultura de la organización con los principios de descentralización?
- ¿Los equipos están dispuestos a adoptar un cambio cultural hacia la propiedad de los datos y la colaboración?
- ¿Los equipos son reactivos y proactivos a la hora de gestionar o distribuir datos?
Disponibilidad de recursos
Data mesh requiere más supervisión que data lake. No hay necesidad de lanzarse a data mesh si se cree que no se va a disponer de los recursos necesarios para mantenerlos.
- La empresa, ¿cuenta con recursos para invertir en una infraestructura de autoservicio o en marcos de gobernanza?
- ¿Se compromete la organización a proporcionar apoyo y mejoras continuas para mejorar la gestión de datos?
- ¿Se conocen qué recursos son necesarios para crear una estructura data mesh?
Implantación eficaz de una malla de datos
Si la organización ha respondido a las preguntas anteriores y quiere implantar data mesh, es el momento de analizar el siguiente paso. Aunque la creación de una plataforma de datos de autoservicio puede parecer desalentadora debido a su escala, puede reducirse en pasos.
Evaluación y planificación
El primer paso es tratar los datos como productos de datos. Se trata de un cambio de perspectiva que forma parte del proceso de evaluación y planificación del cambio de la estructura de la organización.
La evaluación de la preparación de la organización puede implicar la identificación de los ámbitos clave, así como de las partes interesadas. ¿Qué objetivos tiene la empresa y hasta qué punto la desorganización de los datos impide alcanzarlos?
Creación de equipos de dominio
Los equipos de dominio deben tener funciones y responsabilidades definidas a la hora de establecer una data mesh. Un equipo puede encargarse de recopilar los datos, mientras que otros pueden ser responsables de analizarlos para tomar decisiones empresariales.
La formación y la incorporación de los equipos de dominio es vital para crear una plataforma de datos de autoservicio que funcione sin problemas. Los programas de formación bien planificados aumentan el compromiso de los empleados. Si se tiene en cuenta que data mesh es un enfoque centrado en el usuario, lo mejor es que esos usuarios estén implicados.
Creación de una infraestructura de datos de autoservicio
Una vez que se tenga una idea más clara de cómo funcionarán los equipos de dominio y de los objetivos empresariales generales, es hora de crear una infraestructura de datos de autoservicio. En esta fase es cuando se seleccionan las herramientas y plataformas que ayudarán a gestionar los datos del dominio.
Debe darse prioridad a las herramientas que permitan escalabilidad y flexibilidad. Por ejemplo, una solución de almacenamiento en la nube que se amplíe según las necesidades de la organización o que ofrezca una visión más profunda de los datos del dominio. También se puede recurrir a un servicio de seguridad que ofrezca un análisis continuo de la actividad sensible.
Gobernanza y cumplimiento
Los productos de datos necesitan una gobernanza y un cumplimiento coherentes para garantizar las mejores prácticas en todos los ámbitos. Lo último que se quiere es que las personas equivocadas accedan a los datos de dominio o los manejen mal.
El desarrollo de marcos de gobernanza implica la creación de un conjunto de normas para cada equipo de dominio. Por ejemplo, se pueden proporcionar determinados accesos y permisos en función del rol de equipo de una persona. Dedicar tiempo a establecer políticas de calidad, seguridad e interoperabilidad de los datos garantizará que los datos del dominio sigan siendo seguros y utilizables.
Aplicación y mejora iterativas
A medida que se vaya descifrando la función de data mesh, no será necesario que la empresa vaya a por todas con la implementación. Es aconsejable empezar con proyectos piloto para familiarizarse con los productos de datos y las nuevas expectativas que conllevan.
Empezar con proyectos piloto permite recabar opiniones y mejorar continuamente. Puede que se descubra que, en realidad, la organización necesita un equipo de datos central o que los científicos de datos necesitan su propio equipo de dominio. Aunque es absolutamente posible aprender de otras empresas y de cómo abordan los datos, algunos conocimientos sólo se obtienen mediante el método de ensayo y error.
Por qué InterSystems es la mejor opción para crear una data mesh
Crear una data mesh no tiene por qué ser un proyecto en solitario. De hecho, data mesh está intrínsecamente diseñada para ser un esfuerzo de colaboración que transforme los productos de datos a través de un enfoque humanista.
En InterSystems proporcionamos los medios para acceder a los datos y utilizarlos más eficazmente con soluciones de datos integrales. InterSystems ofrece capacidades avanzadas de gestión e integración de datos para crear infraestructuras de datos escalables y fiables. Su plataforma de datos cloud-first ofrece la posibilidad de acceder a los datos de forma cómoda, segura y coherente.
Las avanzadas plataformas de datos de InterSystems, que incluyen soporte para la gestión descentralizada de datos, facilitan la creación y el mantenimiento de una infraestructura de datos de autoservicio. A lo largo de los años InterSystems ha ayudado a organizaciones sanitarias, compañías navieras o bancos de inversión a gestionar y organizar sus datos.
Chess Logistics Technology
Chadwicks Group, Murata Machinery y Chess Logistics Technology son algunos de los clientes a los que InterSystems ha ayudado con los silos de datos y las decisiones basadas en datos. Tanto si le preocupa la viabilidad de sus productos de datos como si desea actualizar sus lagos de datos, estamos aquí para ayudarle.
InterSystems se dedica a la mejora continua y a mantenerse a la vanguardia de latecnología de datos. Proporcionaremos a su empresa apoyo y colaboración continuos para garantizar el éxito de sus iniciativas de malla de datos.Póngaseen contacto con InterSystems cuando esté listo para crear un paradigma de malla de datos.Póngase en contacto con InterSystems