En este artículo analizamos qué es un Data Warehouse y las claves para comprender qué requisitos considerar al evaluar tu solución de Data Warehousing para Big Data. Además, veremos las ventajas de los DWH en Cloud y las opciones que existen. ¡No te lo pierdas!
Contenidos
¿Qué es un Data Warehouse?
Un Data Warehouse es un almacén de datos estructurados que actúa como única fuente de verdad en la organización. Contiene los datos de calidad como datos de clientes, empleados o de ventas. Se crea con el objetivo de realizar análisis de datos y reporting.
El Data Warehouse debe seguir un estándar común para organizar los datos de distintos equipos. Contiene datos históricos que se pueden ir actualizando en el tiempo. Normalmente, los datos en el Data Warehouse no se alteran ni eliminan y suelen estar agregados o segmentados para facilitar su análisis o reporte.
El Data Warehouse comprende los componentes del Data Lake encargados de tratar datos estructurados. Si quieres más detalles de las diferencias, los analizamos en este artículo sobre Data Lakes.
Los ingresos del mercado de Data Warehouse superarán los 30.000 millones de dólares estadounidenses para 2025
Global Market Insights, Inc.
Data Warehousing también hace referencia al proceso de entender los datos, analizar, limpiar y modelar los datos. El resultado de este proceso son datos listos para ser usados (Data Warehouse). Estos datos, se usan para procesar KPIs.
Data Warehouse en Cloud
Originalmente, los Data Warehouses de las organizaciones se han desplegado en infraestructura on-premises. Sin embargo, con el aumento de opciones cloud en la actualidad, es posible reducir costes y operativa de mantenimiento con estos servicios.
Muchas de las tecnologías ofrecidas por los proveedores cloud de Data Warehouse han sido diseñadas con este fin. Son sistemas desarrollados con la elasticidad y escalabilidad en mente.
También, sacan partido del procesamiento paralelo (MPP) para dividir la carga en multitud de nodos y acelerar las consultas y las transformaciones sobre los datos. Por otro lado, esto permite aumentar el número de usuarios simultáneos que usan el sistema.
Ejemplos de Cloud Data Warehouse
Existen multitud de opciones de Data Warehouses en los proveedores cloud más conocidos como Azure, AWS o GCP. Algunas de estas opciones se pueden desplegar independientemente del proveedor. Otras, como Redshift o Synapse Analytics, son específicas de AWS o de Azure.
- Amazon Redshift: Es un Data Warehouse disponible en AWS con almacenamiento columnar. Puede distribuir los datos en nodos de almacenamiento y sacar partido de procesamiento MPP.
- Azure Synapse Analytics: Antes llamado Azure SQL Data Warehouse. Nos proporciona capacidades MPP, lenguaje de consulta SQL y todo un ecosistema de construcción de Pipelines y compatibilidad con Apache Spark.
- BigQuery: Data Warehouse en la plataforma de Google Cloud Platform. Puede desplegar los recursos necesarios para la demanda en cada momento separando cómputo de almacenamiento. Además, usa SQL como lenguaje de consultas.
- Snowflake: Puede desplegarse sobre otros proveedores cloud. Separa el cómputo del almacenamiento para escalar independientemente.
¿Cómo evaluar un Data Warehouse para Big Data?
A continuación presentamos los requisitos que se deben considerar al evaluar una solución o tecnologías de Data Warehouse para almacenar Big Data en tu organización.
1. Minimizar la Latencia
Muchas plataformas requieren tiempos de respuesta inferiores a un segundo en sus paneles de análisis. El Data Warehouse debe ser capaz de proporcionar múltiples niveles de almacenamiento en caché, incluyendo el conjunto de resultados.
2. Maximizar la Concurrencia de Usuarios
La concurrencia es la capacidad de manejar un gran número de consultas de múltiples usuarios al mismo tiempo.
Cualquier empresa tiene múltiples grupos de usuarios independientes, cada uno con diferentes requisitos de procesamiento. Debería ser posible ejecutar múltiples cargas de trabajo analíticas independientes.
El Data Warehouse debe separar las cargas de trabajo y mantener el equilibrio de los recursos disponibles para los grupos de usuarios, como pueden ser los Procesos ETL y los usuarios finales.
3. Proporcionar Valor Rápidamente
Los sistemas de ingesta ya no deben detenerse, deben realizar su trabajo casi en tiempo real. Por lo tanto es necesaria la capacidad de transmitir datos en tiempo real mientras se mantiene la coherencia transaccional completa ACID.
4. Manejo de Datos Semiestructurados
Las soluciones Hadoop y NoSQL surgen de la necesidad de procesar datos semiestructurados, y en formato JSON. El Data Warehouse manejaría los datos estructurados y semiestructurados de forma nativa. Posibilitaría escribir consultas para combinar los datos estructurados y semiestructurados desde la misma ubicación.
5. Rendimiento para Business Intelligence
El Data Warehouse debe maximizar la cantidad total de trabajo completado (en lugar del rendimiento de consultas individuales) ejecutando múltiples flujos de carga paralelos y equilibrando la demanda con las necesidades de los usuarios.
El Business Intelligence (BI) necesita ejecutar informes complejos para ofrecer una visión empresarial. Para cumplir con los plazos exigidos, necesitan un alto rendimiento de cómputo, especialmente para los informes de fin de mes o de fin de año.
Las consultas y los procesos analíticos son muy diferentes a los transaccionales. Las transacciones generalmente afectan a un número reducido de registros para insertar, actualizar o eliminar datos. Por otro lado, los procesos analíticos involucran un gran número de registros y de tablas, realizando operaciones de agregado y joins. Esto puede beneficiarse del almacenamiento de datos por columnas y de un esquema como el Snowflake Schema.
6. Escalable y Elástico
El sistema debe ser escalable de forma incremental o elástico. Debe ser posible agregar recursos de cómputo y almacenamiento adicionales a medida que se necesiten, sin ningún tiempo de inactividad, reorganización o distribución de datos con un uso intensivo de cómputo.
Además, debe implementar mecanismos de alta disponibilidad (HA), backups y de recuperación ante desastres.
7. Bajo Coste y Facilidad de Administración
La solución no debe implicar gastos ni compromisos de capital por adelantado, y ser de bajo coste para operar basándose en su uso.
También debería ser simple, con pocas oportunidades de errores importantes y también ser fácil de gestionar y administrar.
8. Consolidado
Evitar el uso dispar de almacenes de datos por el riesgo de que se produzcan incoherencias y por el impacto en el tiempo de entrega. Todos los datos se deben consolidar en un solo almacén de datos y ser accesibles para todos los usuarios.
9. Accesible Técnicamente para el Intercambio de Datos
La plataforma ideal permitiría el acceso seguro a cualquier cliente autorizado, en cualquier parte del mundo para ejecutar sus propios informes y análisis.
La solución también debe admitir SQL como estándar de la industria para los usuarios, en lugar de sólamente una API.
Tampoco puede ser una opción escalar a una plataforma de hardware más grande cada pocos años. Por lo tanto, la solución debe proporcionar una capacidad de almacenamiento de datos infinita, y la tecnología estar lo suficientemente madura.
Siguientes Pasos y Cursos de Data Warehouse
Aprender en qué consiste y cómo implementar Data Warehouses es fundamental para un profesional en Big Data. Aquí, te dejo dos cursos de Data Warehouse muy recomendados para continuar aprendiendo:
Especialización en Data Warehouse para Business Intelligence
Este curso impartido por la universidad de Colorado disponible en Coursera te permitirá aprender a diseñar un data warehouse completo e integrarlo con herramientas de visualización para crear dashboards potentes. Consta de 5 módulos:
Certificado Profesional de IBM: Ingeniero de Data Warehouse
Este curso ofrecido por IBM en Coursera te enseñará en 7 módulos todo lo que necesitas saber para convertirte en profesional del uso e implementación de data warehouses. Es más avanzado que el anterior. Entre los módulos se encuentran:
Fundamentos de Data Warehouse para principiantes
Curso disponible en Udemy con 5 horas de contenido en el que aprenderás los conceptos fundamentales para construir y diseñar data warehouses. Está complementado con ejemplos prácticos, modelos y técnicas que te resultarán muy útiles. Es un curso inicial muy fácil de seguir para que puedas iniciarte en el desarrollo y construcción de estos potentes sistemas de datos.
Preguntas Frecuentes Data Warehouse – FAQ
¿Cómo funciona un Data Warehouse?
Un Data Warehouse puede estar compuesto por varias tecnologías de bases de datos. En estas tecnologías se define una estructura y organización para los datos. De esta forma, se facilita el acceso a los datos para las herramientas de reporting o consulta.
¿Qué componentes tiene un Data Warehouse?
Generalmente, los Data Warehouses tienen una base de datos centra, herramientas de ETL para realizar las transformaciones y cargas de datos necesarias, y herramientas de acceso a los datos. Los componentes de un Data Warehouse pueden variar en función de las tecnologías sobre las que se implemente.
¿Qué beneficios aporta el Data Warehousing en la nube?
El futuro del data warehouse está en la nube. Aporta numerosos beneficios como simplificación de las operaciones, seguridad integrada, menor tiempo al mercado, escalabilidad y costes reducidos.
He creado un nuevo vídeo-resumen con las claves para comprender los requisitos de un data Warehouse en el ámbito del Big Data.