Azure Purview para el Gobierno de Datos

Última actualización: 10/01/2024 – Oscar Fernandez

Desde el punto de vista de la organización, entender cómo tratan los datos los usuarios es muy importante para apoyar el negocio, acelerar el desarrollo y aportar una mejor experiencia de usuario. El gobierno de datos nos permite responder preguntas sobre cómo, por qué y dónde se usan los datos. Azure Purview es una herramienta excelente que nos proporciona esta información de manera adecuada.

Gobierno de Datos Azure Purview

¿Qué es Azure Purview?

Microsoft Azure Purview es un servicio de gobierno de datos y totalmente gestionado que permite administrar y gobernar los datos locales y en la nube. Para ello, crea un mapa global y actualizado de los datos, descubre nuevos datos automáticamente, los clasifica en datos sensibles y crea su linaje.

Está construido sobre el proyecto open source Apache Atlas. Azure Purview también tiene con un mecanismo para compartir datos de forma segura otros usuarios sin crear copias de los mismos ni almacenarlos fuera de la suscripción.

Para funcionar aprovisiona cuentas de almacenamiento y cuentas de Azure Event Center como recursos gestionados, lo que puede suponer un coste además de los escaneos. La herramienta implementa un modelo de pago por uso.

Azure Purview admite las siguientes fuentes de datos: SQL Server, ADLS Gen1, ADLS Gen2, Blob Storage, Data Explorer, SQL DB, Synapse Analytics, Cosmos DB, Power BI, Teradata, SAP, Oracle y Amazon S3.

Componentes Principales de Azure Purview

Purview Data Map

Purview Data Map es la base del descubrimiento de datos y su gobierno. Es un servicio PaaS que captura los metadatos sobre los datos. Este mapa se mantiene actualizado automáticamente mediante escaneos y clasificación automática. Aporta una interfaz gráfica de usuario para su configuración y uso, además de la API open source de Apache Atlas para implementar aplicaciones.

Azure Purview ha creado un sistema automatizado para gestionar los metadatos procedentes de fuentes mixtas y diversas, a la vez que utiliza etiquetas y protección de datos.

Data Map extrae los metadatos, el linaje y la clasificación de los sistemas de almacenamiento configurados de una manera centralizada.

Purview Data Catalog

La función de catálogo de datos o data catalog de Azure Purview permite realizar búsqueda semántica de datos y presentarlos de una forma fácil de entender para enriquecer procesos de BI e inteligencia artificial.

Purview permite visualizar automáticamente el linaje de datos de entornos de Power BI, Synapse Analytics y Azure Data Factory.

Purview Data Insights

Con Data Insights, los responsables de datos y de seguridad pueden tener una vista global sobre los datos explorados y sus ubicaciones. A través de esta vista, se puede obtener información importante como la distribución de los datos en los distintos entornos, cómo se mueven y dónde se almacenan datos sensibles.

Purview Studio

Purview Studio proporciona un entorno para utilizar los servicios de Azure Purview. Permite a los desarrolladores y usuarios unificar Data Map, Data Catalog y Data Insights como una experiencia unificada.

Ventajas de Azure Purview

Azure Purview permite catalogar los datos y añadir etiquetas personalizadas, para localizar y comprender mejor los datos.

También ayuda a mantener la calidad de los datos para que sean completos, precisos, coherentes y accesibles mediante las funcionalidades de gobernanza.

Para garantizar la seguridad, permite crear un proceso automatizado para simplificar las solicitudes de eliminar datos y generar las los documentos legalmente requeridos por leyes gubernamentales.

Además, se pueden realizar búsquedas basadas en términos técnicos y empresariales e identificar la sensibilidad de los datos comprendiendo su linaje.

Otra ventaja es la capacidad de definir un glosario empresarial: un conjunto de términos definidos que se relacionan con otros términos. Con el glosario, se puede automatizar el proceso de clasificación de los conjuntos de datos y anotarlos con los términos empresariales correctos para que los usuarios puedan entenderlos fácilmente. El vocabulario empresarial es la base de la capa semántica.

El gobierno de datos es fundamental para que las organizaciones tengan los datos como un activo. Ayuda a democratizar los datos empresariales a gran escala y mantenerlos accesibles y conectados.

Limitaciones de Azure Purview

Azure Purview está todavía en sus primeras versiones y existen limitaciones:

  • Tiene una lista limitada de fuentes de datos. Solamente algunos servicios de datos de Azure son accesibles.
  • Una vez clasificados, los activos no pueden ser eliminados usando la UI.
  • No admite la categorización del contenido de los archivos zip.
  • No soporta automatización y las alertas.
  • La relación entre activos se establece manualmente y no se puede especificar el tipo o la naturaleza de la relación.
  • La longitud máxima del nombre del activo y del nombre de la categoría es de 4 KB.

Aún así, Microsoft mejora periódicamente el servicio añadiendo nuevas capacidades para el gobierno empresarial.

Proyecto guiado: Catálogo de datos con Azure Purview

Curso Azure Purview

Te recomiendo este curso disponible en Coursera que te guía a través de un proyecto práctico cómo crear un catálogo de datos en Azure Purview de manera correcta y acorde a buenas prácticas y políticas empresariales.

Contiene una guía en vídeo que podrás seguir a la vez que puedes usar el entorno de Azure en la misma pantalla.

Aprenderás a conectar las fuentes de datos, a crear el catálogo, el glosario de términos y a escanear los datos configurados con las opciones disponibles en el servicio.

Preguntas Frecuentes – FAQ

¿Azure Purview es Gratuito?

No, Azure Purview es un servicio en el que se paga por uso. Además, Purview aprovisiona cuentas de almacenamiento y cuentas de Azure Event Center como recursos gestionados, lo que puede suponer un coste extra además de los escaneos de datos configurados.

¿Azure Purview es un servicio Paas?

Sí, Purview es un servicio PaaS disponible en la nube de Microsoft Azure que permite gestionar los metadatos empresariales de los datos.

¿Cuál es la diferencia de Azure Purview con Apache Atlas?

Apache Atlas es una tecnología open source en la que se basa Azure Purview. Es una herramienta de gobierno de datos empresarial orientada al ecosistema de Hadoop con capacidades de clasificación de datos y de linaje. Azure Purview ha sido construido sobre Apache Atlas para integrar la solución con los servicios de Azure y proporcionar un servicio más amigable.


Deja una respuesta