Última actualización: 30/12/2022
Desde el punto de vista de la organización, entender cómo tratan los datos los usuarios es muy importante para apoyar el negocio, acelerar el desarrollo y aportar una mejor experiencia de usuario. El gobierno de datos nos permite responder preguntas sobre cómo, por qué y dónde se usan los datos. Azure Purview es una herramienta excelente que nos proporciona esta información de manera adecuada.


¿Por qué necesitamos el Gobierno de Datos?
Para obtener un verdadero valor empresarial de los datos, las organizaciones deben responder preguntas como qué datos existen en la organización, quiénes son sus propietarios, quién puede acceder y con qué propósito. Además, debe existir una trazabilidad del flujo de datos, también llamada linaje de los datos. Por último, se debe garantizar la calidad y seguridad de los datos, para lo que se necesitará determinar el lugar y la manera de almacenar todos estos datos, junto a la definición de su ciclo de vida.
No tener estas preguntas en mente, puede llevar a ineficiencias en la organización, relacionada con una confusión relacionada con los datos, con información contradictoria y con la toma de malas decisiones empresariales basadas en esta mala interpretación de los datos. Por si fuera poco, actualmente los reguladores están tomando medidas para garantizar el cumplimiento de la privacidad y de la soberanía de los datos.


En definitiva, las empresas que utilizan los datos como activos, deben asegurar su correcta gestión en todas las fases: recolección, almacenamiento y explotación. Para ello, deberán utilizar soluciones y tecnologías adecuadas para establecer su plan de gobierno de datos empresarial que garantice el ciclo de vida de todos los datos.
¿Qué es el Gobierno de Datos?
El gobierno de datos ayuda a garantizar que los datos estén disponibles, protegidos y sean accesibles. También facilita el análisis de datos y la coherencia de los datos, eliminando la redundancia y evitando a las organizaciones problemas en la toma de decisiones.
El gobierno de los datos es el marco normativo y de responsabilidad para que el poder de decisión garantice un comportamiento adecuado en la valoración, creación, uso y control de los datos y los análisis
Gartner
El gobierno de datos también permite añadir consistencia a los datos, reducir los costes de gestión, establecer los niveles de acceso a los datos y mejorar la experiencia de usuarios, tanto empleados como clientes.
¿Qué es Azure Purview?
Microsoft Azure Purview es un servicio de gobierno de datos y totalmente gestionado que permite administrar y gobernar los datos locales y en la nube. Para ello, crea un mapa global y actualizado de los datos, descubre nuevos datos automáticamente, los clasifica en datos sensibles y crea su linaje.
Está construido sobre el proyecto open source Apache Atlas. Azure Purview también tiene con un mecanismo para compartir datos de forma segura otros usuarios sin crear copias de los mismos ni almacenarlos fuera de la suscripción. Para funcionar aprovisiona cuentas de almacenamiento y cuentas de Azure Event Center como recursos gestionados, lo que puede suponer un coste además de los escaneos. El modelo de pago de Purview es pagar por lo que se usa.
Azure Purview admite las siguientes fuentes de datos: SQL Server, ADLS Gen1, ADLS Gen2, Blob Storage, Data Explorer, SQL DB, Synapse Analytics, Cosmos DB, Power BI, Teradata, SAP, Oracle y Amazon S3.
Componentes Principales de Azure Purview
Purview Data Map
Purview Data Map es la base del descubrimiento de datos y su gobierno. Es un servicio PaaS que captura los metadatos sobre los datos. Este mapa se mantiene actualizado automáticamente mediante escaneos y clasificación automática. Aporta una interfaz gráfica de usuario para su configuración y uso, además de la API open source de Apache Atlas para implementar aplicaciones.
Azure Purview ha creado un sistema automatizado para gestionar los metadatos procedentes de fuentes mixtas y diversas, a la vez que utiliza etiquetas y protección de datos.
Data Map extrae los metadatos, el linaje y la clasificación de los sistemas de almacenamiento configurados de una manera centralizada.
Purview Data Catalog
La función de catálogo de datos o data catalog de Azure Purview permite realizar búsqueda semántica de datos y presentarlos de una forma fácil de entender para enriquecer procesos de BI e inteligencia artificial.
Purview permite visualizar automáticamente el linaje de datos de entornos de Power BI, Synapse Analytics y Azure Data Factory.
Purview Data Insights
Con Purview Data Insights, los responsables de datos y de seguridad pueden tener una vista global sobre los datos explorados y sus ubicaciones. A través de esta vista, se puede obtener información importante como la distribución de los datos en los distintos entornos, cómo se mueven y dónde se almacenan datos sensibles.
Purview Studio
Purview Studio un entorno para utilizar los servicios de Azure Purview. Permite a los desarrolladores y usuarios trabajar a través de Purview y unifica Purview Data Map, Data Catalog y Purview Data Insights como una experiencia unificada en Purview Studio.
Ventajas de Azure Purview
Azure Purview permite catalogar los datos y añadir etiquetas personalizadas, para localizar y comprender mejor los datos.
También ayuda a mantener la calidad de los datos para que sean completos, precisos, coherentes y accesibles mediante las funcionalidades de gobernanza.
Para garantizar la seguridad, Azure Purview permite crear un proceso automatizado para simplificar las solicitudes de eliminar datos y generar las los documentos legalmente requeridos por leyes gubernamentales.
Además, se pueden realizar búsquedas basadas en términos técnicos y empresariales e identificar la sensibilidad de los datos comprendiendo su linaje.
Azure Purview permite definir el glosario empresarial: un conjunto de términos definidos que se relacionan con otros términos. Con el glosario, se puede automatizar el proceso de clasificación de los conjuntos de datos y anotarlos con los términos empresariales correctos para que los usuarios puedan entenderlos fácilmente. El vocabulario empresarial es la base de la capa semántica.
Limitaciones de Azure Purview
Azure Purview está todavía en sus primeras versiones y existen limitaciones:
- Purview tiene una lista limitada de fuentes de datos. Solamente algunos servicios de datos de Azure son accesibles.
- Una vez clasificados, los activos no pueden ser eliminados usando la UI.
- No admite la categorización del contenido de los archivos zip.
- No soporta automatización y las alertas.
- La relación entre activos se establece manualmente y no se puede especificar el tipo o la naturaleza de la relación.
- La longitud máxima del nombre del activo y del nombre de la categoría es de 4 KB.
Aún así, Microsoft mejora periódicamente el servicio añadiendo nuevas capacidades para el gobierno empresarial.
Conclusiones
El gobierno de datos es fundamental para que las organizaciones tengan los datos como un activo. Ayuda a democratizar los datos empresariales a gran escala y mantenerlos accesibles y conectados.
Microsoft Azure Purview es una buena solución par el gobierno de datos en la nube de Azure entendiendo quién, cuándo, cómo, dónde y por qué de los datos.
Curso Recomendado de Gobierno de Datos
A continuación tienes el curso de Udemy que te recomiendo para familiarizarte con el Gobierno de datos.
Fundamentos del Gobierno de datos
Este curso recomendado te enseñará las bases para estructurar, implementar, mantener y medir la eficiencia de un buen plan de gobierno de datos.
Preguntas Frecuentes Azure Purview – FAQ
¿Azure Purview es Gratuito?
No, Azure Purview es un servicio en el que se paga por uso. Además, Purview aprovisiona cuentas de almacenamiento y cuentas de Azure Event Center como recursos gestionados, lo que puede suponer un coste extra además de los escaneos de datos configurados.
¿Azure Purview es un servicio Paas?
Sí, Purview es un servicio PaaS disponible en la nube de Microsoft Azure que permite gestionar los metadatos empresariales de los datos.
¿Cuál es la diferencia de Azure Purview con Apache Atlas?
Apache Atlas es una tecnología open source en la que se basa Azure Purview. Es una herramienta de gobierno de datos empresarial orientada al ecosistema de Hadoop con capacidades de clasificación de datos y de linaje. Azure Purview ha sido construido sobre Apache Atlas para integrar la solución con los servicios de Azure y proporcionar un servicio más amigable.