Requisitos para tu Data Warehouse

Última actualización: 04/10/2020

En este artículo analizamos qué es un Data Warehouse y 15 claves para comprender qué requisitos considerar al evaluar tu solución de Data Warehousing para Big Data.

Requisitos Data Warehouse

¿Qué es un Data Warehouse?

Un Data Warehouse es un almacén de datos estructurados que actúa como única fuente de verdad en la organización. Contiene los datos de calidad como datos de clientes, empleados o de ventas. Se crea con el objetivo de realizar análisis de datos y reporting.

El Data Warehouse debe seguir un estándar común para organizar los datos de distintos equipos. Contiene datos históricos que se pueden ir actualizando en el tiempo.

Normalmente, los datos en el Data Warehouse no se alteran ni eliminan y suelen estar agregados o segmentados para facilitar su análisis o reporte.

El Data Warehouse comprende los componentes del Data Lake encargados de tratar datos estructurados. Si quieres más detalles de las diferencias, los analizamos en este artículo sobre Data Lakes.

¿Cómo evaluar un Data Warehouse para Big Data?

A continuación presentamos los requisitos que se deben considerar al evaluar una solución o tecnologías de Data Warehouse para almacenar Big Data en tu organización.

Requisitos Data Warehouse

1. Minimizar la latencia

Muchas plataformas requieren tiempos de respuesta inferiores a un segundo en sus paneles de análisis. El Data Warehouse debe ser capaz de proporcionar múltiples niveles de almacenamiento en caché, incluyendo el conjunto de resultados.

2. Separación de la carga de trabajo

El Data Warehouse debe mantener el equilibrio de los recursos disponibles para los grupos de usuarios, como pueden ser los Procesos ETL y los usuarios finales.

3. Maximizar la concurrencia

La concurrencia es la capacidad de manejar un gran número de consultas de múltiples usuarios al mismo tiempo. El Data Warehouse debe escalar automáticamente para agregar recursos de cómputo adicionales sobre la marcha cuando fueran necesarios.

4. Proporcionar valor rápidamente

Los sistemas de ingesta ya no deben detenerse, deben realizar su trabajo casi en tiempo real. Por lo tanto es necesaria la capacidad de transmitir datos en tiempo real mientras se mantiene la coherencia transaccional completa ACID.

5. Tamaños independientes

Cualquier empresa tiene múltiples grupos de usuarios independientes, cada uno con diferentes requisitos de procesamiento. Debería ser posible ejecutar múltiples cargas de trabajo analíticas independientes.

6. Manejo de datos semiestructurados

Las soluciones Hadoop y NoSQL surgen de la necesidad de procesar datos semiestructurados, y en formato JSON. El Data Warehouse manejaría los datos estructurados y semiestructurados de forma nativa. Posibilitaría escribir consultas para combinar los datos estructurados y semiestructurados desde la misma ubicación.

7. Maximizar el rendimiento de la carga de datos

El Data Warehouse debe maximizar la cantidad total de trabajo completado (en lugar del rendimiento de consultas individuales) ejecutando múltiples flujos de carga paralelos y equilibrando la demanda con las necesidades de los usuarios.

8. Rendimiento para Business Intelligence

Business Intelligence (BI) necesita ejecutar informes complejos para ofrecer una visión empresarial. Para cumplir con los plazos exigidos, necesitan un alto rendimiento de cómputo, especialmente para los informes de fin de mes o de fin de año.

9. Escalabilidad rápida

El sistema debe ser escalable de forma incremental. Debe ser posible agregar recursos de cómputo y almacenamiento adicionales a medida que se necesiten, sin ningún tiempo de inactividad, reorganización o distribución de datos con un uso intensivo de cómputo.

10. Bajo coste

La solución no debe implicar gastos ni compromisos de capital por adelantado, y ser de bajo coste para operar basánsose en la utilización.

11. Consolidado

Evitar el uso dispar de almacenes de datos por el riesgo de que se produzcan incoherencias y por el impacto en el tiempo de entrega. Todos los datos se deben consolidar en un solo almacén de datos y ser accesibles para todos los usuarios.

12. Facilidad de administración

La solución debería ser simple, con pocas oportunidades de errores importantes y también ser fácil de gestionar y administrar.

13. Accesible para el intercambio de datos

La plataforma ideal permitiría el acceso seguro a cualquier cliente autorizado, en cualquier parte del mundo para ejecutar sus propios informes y análisis.

14. Debe mantener todos los datos

No puede ser una opción escalar a una plataforma de hardware más grande cada pocos años. Por lo tanto, la solución debe proporcionar una capacidad de almacenamiento de datos infinita, y la tecnología estar lo suficientemente madura.

15. Técnicamente accesible

La solución debe admitir SQL como estándar de la industria para los usuarios, en lugar de sólamente una API.


¿Quieres convertirte en experto Big Data? Aprende a fondo sobre Data Warehousing con este curso.


He creado un nuevo vídeo-resumen con las claves para comprender los requisitos de un data Warehouse en el ámbito del Big Data.


¡Echa un ojo a mi lista de reproducción de Big Data en Youtube!

Si te ayuda el contenido del blog, por favor considera unirte a la lista de correo para reconocer el trabajo!

Deja una respuesta