El cloud computing ha habilitado soluciones de datos escalables y más rentables para su uso en analítica. Este artículo resume en una tabla los Servicios de datos Cloud de los proveedores más usados en la industria (Azure, AWS y GCP).
Muchos de los servicios de datos en la nube son evoluciones de productos open source, en los que están basados. Por ejemplo, AWS Kinesis está basado en los principios de Apache Kafka. Otros servicios imitan a otros productos open source en funcionalidades, por ejemplo Step Functions con Apache Airflow.
Para comprender mejor los servicios que ofrecen los proveedores cloud, podemos clasificarlos en varios grupos en función de sus características:
- Ingesta
- Procesamiento
- Almacenamiento
- Análisis
Principales Servicios de Datos en Cloud
En la siguiente tabla se muestran estos grupos de servicios, con la categoría a la que pertenecen, las alternativas en los principales proveedores de servicios cloud (Azure, AWS y GCP) y su opción Open Source.
Grupo | Categoría | Azure | AWS | GCP | Open Source |
---|---|---|---|---|---|
Ingesta | ETL | Data Factory | Glue | Dataprep | Apache NiFi |
Ingesta | Message Queue Streaming | Event Hubs | Kinesis | Pub/Sub | Apache Kafka |
Ingesta | Scheduling | Logic Apps Batch | Stepfunctions Cloudwatch EventBridge | Cloud Scheduler Cloud Batch Cloud Workflows Cloud Composer | Apache Airflow |
Procesamiento | Procesamiento | Functions Data Factory Databricks | Lambda EMR Glue Databricks | Cloud Functions DataProc DataFlow | Apache Flink Apache Spark Apache Hadoop |
Almacenamiento | Relacional | Azure SQL DB | RDS | CloudSQL BigTable | MySQL MariaDB PostgreSQL |
Almacenamiento | NoSQL | CosmosDB | DynamoDB DocumentDB | Datastore Firestore | Elasticsearch Apache Cassandra MongoDB |
Almacenamiento | OLAP Data Warehouse | Synapse Analytics Snowflake | Redshift Athena Snowflake | BigQuery Snowflake | Apache Druid Apache Hive Presto |
Almacenamiento | Objetos | Blob Storage | S3 | Cloud Storage | Minio Ceph |
Almacenamiento | Cache | Cache for Redis | ElastiCache | Memorystore | Memcached Redis |
Almacenamiento | Grafo | CosmosDB | Neptune | Vertex AI | Neo4j |
Análisis | Machine Learning | Azure ML | SageMaker | Cloud datalab Vertex AI | Tensorflow Keras PyTorch |
Análisis | Business Intelligence | Power BI | Quicksight | Data Studio Looker | Grafana Apache Superset |
Aprende más sobre servicios de datos cloud y especialízate en Ingeniero de Datos en cloud con mis guías de certificación: