Arquitectura de Datos: Introducción

Última actualización: 25/08/2022

La arquitectura de datos está basada en organizar la información de la organización para que tenga sentido y permita la implementación de los procesos de negocio. Ayuda a garantizar que la información adecuada va a estar disponible cuando sea necesaria, con unos sistemas flexibles y que permiten adaptar cambios y ampliaciones en el futuro.

Arquitectura de Datos

¿Qué es la Arquitectura de Datos?

La arquitectura de datos es la interfaz que actúa entre los objetivos de negocio y los procesos técnicos de las organizaciones. Esta arquitectura y su ecosistema analítico deben estar alineados con la estrategia de la empresa, e incluye las herramientas, las técnicas y las prácticas para gestionar los datos.

Las arquitecturas de datos no son una plataforma de datos ni una tecnología o data warehouse específico. Son entidades construidas sobre diversas tecnologías que permiten combinar e integrar los datos de varias fuentes heterogéneas. En estas capas es posible realizar transformaciones y la preparación de datos necesaria para facilitar la analítica y la creación de reportes, entre otras tareas.

¿Por qué es importante la Arquitectura de Datos?

El diseño correcto de una arquitectura de datos completa permitirá a la organización tomar mejores decisiones. También permite aumentar la capacidad de análisis de datos con una mayor eficacia. Para que esto ocurra, la arquitectura de datos debe estar diseñada teniendo en cuenta a los usuarios y el flujo de datos en todo momento.

Conseguir que la arquitectura de datos sea robusta, segura, elástica y flexible con capacidades de gobierno de datos no es una tarea sencilla. Es un proyecto que se extiende en el tiempo y requiere implicar a equipos de trabajo diversos dentro de la organización.

¿Qué hace un Arquitecto de Datos?

El perfil de un arquitecto de datos es más específico que el de un arquitecto de soluciones. Implica diseñar y construir esta arquitectura de datos para la organización. Es un trabajo que requiere explicar soluciones conceptuales complejas, por lo que es común la realización de diagramas de arquitectura. Estos diagramas facilitan la comunicación de ideas a audiencias técnicas y no técnicas.

A continuación, veremos cuáles son los diagramas de arquitectura más usados en la práctica de los arquitectos de datos:

Diagrama de Flujo

Este diagrama representa las piezas de los flujos de datos. Se orienta a perfiles técnicos y describen los procesos de negocio. En este diagrama no es necesario representar la manera en la que interaccionan las piezas, pero sí cuáles están conectadas y en qué dirección se mueven los datos entre ellas. Es uno de los primeros que se trabajan en un nuevo proyecto.

Esquema de pipeline de datos

Diagrama de Servicios

El diagrama de servicios representa a alto nivel las conexiones que existen entre los servicios externos a la organización y los operados de manera interna. Simplifica la visualización de la conectividad con servicios externos para que los perfiles de redes y de seguridad puedan determinar la mejor estrategia a seguir. Los detalles de funcionamiento de las piezas no son necesarios.

Diagramas de Infraestructura y de Desarrollo

Estos son los diagramas de más bajo nivel, e incluyen todas las piezas que existen en los servicios y herramientas representadas. Los perfiles técnicos como los desarrolladores o los administradores serán los más interesados en los diagramas de este tipo. En función de quién sea el interesado, estos diagramas pueden incluir un mayor nivel de detalle.

Diagrama de Personas

Representa los actores involucrados en el caso de uso o en el problema de negocio a través de las historias de usuario. Generalmente están interesados en este diagrama los product owners y perfiles de negocio. Es similar a BPMN para representar quién y cuándo interacciona con las piezas.

¿Cómo plantear una Arquitectura de Datos? Consideraciones

Para plantear correctamente una arquitectura de datos, se debe tener en consideración quienes van a ser los consumidores de los datos. Para entender sus requisitos los arquitectos de datos deben preguntarse qué datos necesitarán, en qué cantidad, con qué disponibilidad y con qué velocidad serán consumidos. Tanto en arquitecturas basadas en tecnologías cloud, como híbridas u onprem, deberán satisfacer todos los actores interesados.

Estas necesidades obligarán a ofrecer una solución escalable, con tecnologías capaces de integrarse y de dar solución a los casos de uso presentes y futuros de la organización. También se debe poner el foco a los procesos de ingesta de datos, tanto en streaming como en batch. Por supuesto, existen modelos de arquitectura, como la arquitectura lambda o kappa que se deberán estudiar para adecuarlos a las particularidades de la organización.

La arquitectura de datos también deberá soportar la creación y la puesta en marcha de modelos de machine learning e inteligencia artificial. Todas estas capas estarán interconectadas y bajo el paraguas del gobierno del dato. Para cumplir regulaciones y la seguridad en torno a los datos, se deberán aplicar procesos de anonimización y cifrado. También, como parte del gobierno del dato, la arquitectura debe ofrecer un catálogo de datos disponible para ser consultado por los distintos actores y facilitar la implementación de casos de uso adicionales.

Deja una respuesta