Snowflake vs Hadoop vs Oracle Diferencias

Última actualización: 04/10/2020

Exploramos las diferencias más notables entre Snowflake, Hadoop (HDFS) y la base de datos Oracle para ayudarte a elegir entre estas tecnologías de almacenamiento Big Data.

Snowflake vs Hadoop (HDFS)

Hadoop-HDFS vs Snowflake
  • Algunas diferencias de Hadoop (HDFS) con las bases de datos MPP (Massively Parallel Processing):
    • No cumple las propiedades ACID.
    • Orientado a grandes conjuntos de datos.
    • No es elásticamente escalable.
    • Tiene un coste y complejidad asociada a HDFS.
  • En Snowflake, el almacenamiento de datos se mantiene separado del cómputo, esto hace que sea posible aumentar o reducir dinámicamente el tamaño del clúster.

Diferencias clave

Hadoop puede ejecutarse en servidores de coste reducido con almacenamiento conectado directamente mientras que Snowflake es una plataforma de software como servicio que no requiere compra de hardware adicional.

Por otro lado, Hadoop tiene el coste tradicional. Requiere gastos de capital importantes en las instalaciones o en la implementación y la administración de este software en la nube. El coste de Snowflake es distinto, ya que usa un sistema de pago por uso con facturación por segundo.

En cuanto a la escalabilidad, Hadoop soporta miles de nodos. La mayoría de instalaciones comprenden cientos de ellos que pueden manejar fácilmente cientos de terabytes escalando a decenas de petabytes. En el caso de Snowflake soporta 1028 nodos por almacén virtual para disponer de tantos almacenes virtuales como sea necesario. Las tablas individuales pueden exceder un petabyte.

Una de las limitaciones de Hadoop es que las tablas pequeñas (menos de 1GB) deben evitarse siempre que sea posible puesto que este sistema de ficheros distribuido no funciona bien con archivos pequeños. Esta problemática no existe en Snowflake, que soporta consultas sobre datos desde kilobytes hasta petabytes.

Otra de las limitaciones que no existe en Snowflake es la sobrecarga de Hadoop al inicio de las consultas, que lo convierten en una solución pobre para consultas de baja latencia que debemos solventar con tecnologías adicionales

Por último, la complejidad de implementación en Hadoop es alta. Necesita soporte y gestión de sistemas. Snowflake, al ser un servicio gestionado tiene un despliegue muy simple con una gestión de gastos reducidos (sin índices o estadísticas para gestionar).

Snowflake vs Oracle

Oracle es una de las bases de datos más populares y usadas en el mundo, encontrándose en lo más alto de los rankings de bases de datos. Sin embargo tecnologías más recientes están reduciendo las distancias con el paso del tiempo.

snowflake vs oracle

El crecimiento que ha tenido Hadoop en popularidad, las alternativas open source como MySQL y PostgreSQL y las bases de datos NoSQL afectan al mercado de Oracle a medida que las demandas de escalabilidad y rendimiento se han vuelto críticas para muchas organizaciones.

Snowflake vs Oracle – Alternativa como Data Warehouse

Cualquier Data Warehouse moderno debe soportar la ejecución en la nube y así sacar partido de la mayor escalabilidad, elasticidad y seguridad que estas proporcionan. Snowflake es una de estas alternativas diseñada especialmente para desplegar en la nube.

 OracleSnowflake
Carga de trabajoTransaccional o Data Warehouse (OLTP o OLAP)Data Warehouse puro (OLAP)
CosteFijo. Determinado por usuarios, cores de CPU y soporteFlexible en función del consumo. Sin costes de hardware
DespliegueOn premiseCloud pública
EscalabilidadFija, opciones de desplegar nuevo hardwareHorizontal y vertical sin pérdida de servicio e inmediata
ActualizaciónParches que deben ser instalados y monitorizadosTransparente y automática
ParticionesDefinidas de forma manualAutomáticas por cada columna
ÍndicesDefinidos por administradores con diferentes tiposNo existen
ProcedimientosPL/SQLJavaScript

Al contrario que Oracle, Snowflake es una solución simple, que gestiona de forma transparente las estadísticas, particiones y actualizaciones. De esta forma, consigue reducir costes de mantenimiento y el conocimiento del sistema necesario para optimizar su uso.

Por otro lado, tenemos que valorar detenidamente las necesidades particulares que existen en la organización para tomar una decisión acertada.


A continuación dos vídeo-resumen con las comparativas de Snowflake con Hadoop y con la base de datos Oracle.


¡Echa un ojo a mi lista de reproducción de Big Data en Youtube!

Si te ayuda el contenido del blog, por favor considera unirte a la lista de correo para reconocer el trabajo!

Deja una respuesta