¿Qué es Data Mesh? Aprende sobre esta Arquitectura de Datos

  • Tiempo de lectura:12 minutos de lectura
  • Autor de la entrada:
  • Última modificación de la entrada:30/07/2024

Aprende en esta entrada qué es Data Mesh. Un nuevo enfoque para compartir, acceder y gestionar datos analíticos en organizaciones de una manera descentralizada.

Data Mesh

¿Qué es Data Mesh?

Data Mesh es un enfoque sociotécnico descentralizado para compartir, acceder y gestionar datos analíticos en un entorno complejo y a gran escala dentro o entre las organizaciones. Consiste en cambiar los propietarios de los datos y cambiar el enfoque de cómo son consumidos y usados en la arquitectura de datos.

Tradicionalmente, se ha usado un patrón centralizado en el que los ingenieros de datos agregan los activos de datos y crean un producto para que pueda ser usado por varios consumidores, como un Data Lake, sin conocer el contexto antes de tiempo. Los lagos de datos, data warehouses y data lake houses van a seguir existiendo con este enfoque.

Facilita el acceso a los datos entre organizaciones y departamentos, ya que el dato se trata y se publica como un producto. Es una aproximación mucho más sencilla a la tradicional, en la que cuando alguien quiere acceder a datos de otra unidad o de otro dominio debe iniciar un proceso de descubrimiento para determinar con quién debe hablar, solicitar los permisos de acceso, etc. Este proceso puede durar mucho tiempo en grandes organizaciones.

Implementación Data Mesh
Implementación Data Mesh

Además de la creación del producto, también cambia los roles involucrados en torno a los datos. Introduce roles de consumidores de datos y propietario de dominio y de productos de datos, que también definen el gobierno del producto.

¿Por qué usar Data Mesh?

Para entender el enfoque que propone el Data Mesh, debemos entender que existen varios mitos relacionados con la modernización cloud y las migraciones a la nube de la infraestructura y los servicios de las organizaciones.

Por un lado, a menudo se cree que la nube va a simplificar el ecosistema y que eliminará los silos de datos por completo. La realidad es que no tiene por qué simplificarse con estas migraciones a la nube, de hecho, puede complicarse al realizar el movimiento a la nube de múltiples plataformas heterogéneas, como AWS o Azure. Además, muchos sistemas onpremise seguirán existiendo y conviviendo con la infraestructura en la nube.

Los silos de datos tampoco desaparecerán con las tecnologías cloud, sino que podrán seguir existiendo interconectados entre sistemas SaaS y cloud. Por último, la nube tampoco resolverá completamente los problemas de gobierno de datos y de cumplimiento. Estos aspectos también necesitarán de un enfoque multicloud.

Data Mesh intenta resolver estos problemas con un nuevo enfoque sobre cómo tratar los datos en las organizaciones, particularmente en entornos cloud y descentralizados.

Data Mesh vs Data Fabric

Se entiende Data Fabric como un concepto de diseño que sirve como una capa de datos integrada y de procesos conectados. Incluye procesos ETL y ELT, procesos de replicación y de virtualización de datos. Todo esto debe de estar implementado con una capa de gobierno, cumplimiento y dataops que maneje las pipelines de datos correctamente entre los lagos de datos, warehouses y aplicaciones.

En el patrón Data Mesh, los datos se organizan alrededor de los propietarios de dominios, que crean los productos de datos. Estos productos pueden ser agregados por consumidores distribuidos. El contexto de este producto está predefinido. Esta es precisamente la diferencia principal entre Data Mesh y Data Fabric.

Por lo tanto, es posible implementar Data Fabric sin Data Mesh, pero no puedes implementar Data Mesh sin Data Fabric.

¿Cómo se Implementa Data Mesh?

Implementar Data Mesh requiere un enfoque en el equipo, en la cultura y en la tecnología. En general, la implementación puede seguir los siguientes pasos:

  1. Define los objetivos de data mesh y cómo se van a alinear con la estrategia de tu empresa y los requisitos de negocio.
  2. Identifica los datos críticos y estratégicos que serán el enfoque inicial y define cómo se conectarán entre sí para proporcionar valor a la empresa.
  3. Forma un equipo interdisciplinar con miembros de diferentes áreas de la empresa, como ingeniería de datos, negocio, operaciones y análítica.
  4. Establece una cultura de colaboración y gobierno de datos en toda la empresa para asegurar que los datos se compartan y se utilicen de manera eficiente y efectiva.
  5. Implementa las tecnologías y plataformas necesarias para construir y operar un entorno data mesh, como herramientas de integración y almacenamiento de datos, sistemas de gestión de metadatos y plataformas de análisis de datos.
  6. Realiza una implementación piloto de data mesh en un área específica de la empresa para validar el enfoque y recopilar feedback de los usuarios.
  7. Amplía gradualmente esta implemeentación de data mesh a otras áreas y datos de la empresa, iterando y mejorando continuamente el enfoque a medida que se avanza.
  8. Monitoriza el rendimiento y el valor generado por data mesh y realice ajustes en la estrategia y la implementación en consecuencia.

Lecturas y Formación Recomendada

Para profundizar en este enfoque de datos en las organizaciones, tienes dos libros en Amazon que te resultarán muy útiles para comprender esta filosofía:

Data Mesh: Delivering Data-Driven Value at Scale

En este libro práctico, el autor Zhamak Dehghani presenta este concepto. El paradigma sociotécnico descentralizado inspirado en la arquitectura distribuida moderna.

Data Mesh: Delivering Data-Driven Value at Scale

Data Mesh in Action

Aprende a implantar Data Mesh en organizaciones de cualquier tamaño. El libro intenta ajustar este enfoque a las necesidades específicas de las empresas para cambiar la forma en que se usan los datos.

Libro Mesh in Action

Preguntas Frecuentes Data Mesh – FAQ

¿Cómo se diferencia data mesh de otros enfoques de arquitectura de datos?

Data Mesh se enfoca en la colaboración, la cultura y el valor de los datos. Sin embargo, otros enfoques se centran en la tecnología y la escalabilidad técnica.

¿Qué desafíos existen al implementar Data Mesh?

Implementar data mesh puede presentar varios desafíos. Entre ellos, el cambio cultural y la gobernanza de datos, la integración de tecnología, el cambio en el enfoque de los datos y en la adopción de usuarios. Estos desafíos pueden requerir un cambio en la forma en que las personas trabajan y colaboran. También en la forma en que se gestionan y protegen los datos en la empresa. Por otro lado, pueden requerir la implementación de una variedad de tecnologías y plataformas. Además, pueden requerir un esfuerzo de capacitación y comunicación para asegurarse de que los usuarios entiendan y aprovechen este enfoque.

¿Cómo se garantiza la calidad de los datos en un entorno data mesh?

Para garantizar la calidad de los datos en un entorno data mesh, se pueden seguir algunas prácticas recomendadas. Entre ellas se encuentran establecer una cultura de calidad de datos en toda la empresa. También, implementar herramientas y procesos de gestión de metadatos, estandarizar y normalizar los datos utilizados, y realizar pruebas y validaciones continuas de la calidad de los datos. También se debe establecer un equipo de calidad de datos dedicado.

¿Cómo se gestiona el acceso y la seguridad de los datos en data mesh?

Se deben seguir prácticas como establecer una política de seguridad y de acceso de datos en la empresa, implementar herramientas y plataformas de seguridad de datos, como autenticación y autorización de usuarios, cifrado de datos y gestión de permisos, y establecer procesos y procedimientos para gestionar y proteger los datos. También puede ser útil contar con un equipo de seguridad de datos dedicado que se encargue de monitorizar y mejorar la seguridad de los datos.

¿Cómo se mide el éxito de una implementación de data mesh?

Para medir el éxito, se pueden utilizar métricas y indicadores clave, como el valor generado por los datos, la adopción de usuarios y la colaboración entre equipos, la calidad y la cantidad de datos disponibles , la eficiencia y la escalabilidad del sistema, y el cumplimiento de la seguridad y la gobernanza de datos. También puede ser útil realizar encuestas y entrevistas con usuarios y equipos para recopilar feedback y mejorar la implementación.

Deja una respuesta