Introducción a Amazon Athena

Última actualización: 09/02/2024 – Oscar Fernandez

Seguro que has oído hablar o has tenido que usar en algún momento el popular servicio de AWS Athena ¿Pero qué es exactamente? En términos sencillos, es un servicio de consulta interactiva que facilita el análisis de datos almacenados en Amazon S3 utilizando SQL estándar.

Introducción Amazon Athena

Ventajas de AWS Athena

La capacidad de realizar consultas SQL directamente sobre datos almacenados en S3 sin necesidad de procesos de carga previos ha transformado la forma en que las empresas gestionan y analizan grandes conjuntos de información. AWS Athena es una joya en el arsenal de servicios de Amazon Web Services (AWS) y juega un papel crucial en la revolución de la analítica de datos.

  1. Sin Servidor (Serverless): Elimina la necesidad de gestionar infraestructura, permitiendo un enfoque más centrado en consultas y análisis.
  2. Integración con AWS: Una de las grandes fortalezas de AWS Athena es su integración perfecta con otros servicios de AWS, como S3, Glue y QuickSight.
  3. Escalabilidad Automática: Maneja conjuntos de datos de cualquier tamaño, escalando automáticamente según la demanda, lo que garantiza un rendimiento consistente.
  4. Compatibilidad con Formatos Comunes: Admite una variedad de formatos de datos, como CSV, JSON, Parquet o Apache Iceberg, ofreciendo flexibilidad en la lectura de datos.

Limitaciones de Amazon Athena

Como cualquier servicio, tenemos que tener en cuenta las limitaciones cuando usamos Amazon Athena en nuestras arquitecturas de datos.

  1. Latencia en Consultas Complejas: En consultas muy complejas o con grandes volúmenes de datos, puede experimentarse latencia, afectando el tiempo de respuesta.
  2. Coste por Consulta: Aunque el modelo de precios es atractivo, es crucial gestionar las consultas de manera eficiente para evitar costos inesperados.
  3. Limitaciones de Funcionalidades SQL: El soporte SQL tiene ciertas limitaciones en comparación con bases de datos relacionales completas. Por ejemplo, no es posible ejecutar procedimientos almacenados o usar sentencias como «CREATE TABLE LIKE»
  4. Requiere Conocimientos SQL: Para aprovechar al máximo Athena, se necesita un conocimiento sólido de SQL, por lo que puede ser una barrera para usuarios menos familiarizados con este lenguaje.

Cómo Funciona AWS Athena

Metadatos y Catalogación: Athena utiliza un catálogo de metadatos para organizar y gestionar la estructura de los datos almacenados en S3. Esto facilita la consulta sin necesidad de procesos de carga previa, siendo compatible con AWS Glue y Hive Metastore.

La magia de Athena radica en la capacidad de ejecutar consultas directamente en los archivos de datos almacenados en S3, minimizando la necesidad de procesos ETL (Extract, Transform, Load).

Con la estructura sin servidor, la arquitectura escalable y sin la necesidad de configurar o administrar infraestructuras, los usuarios pueden enfocarse directamente en analizar datos de manera eficiente.

Athena utiliza un motor de consultas basado en Presto, que optimiza las consultas para mejorar el rendimiento, aprovechando la capacidad de paralelización para procesar grandes volúmenes de datos de manera eficiente.

Para la gestión de accesos Athena utiliza políticas de IAM (Identify and Access Management), asegurando un control granular sobre quién puede acceder y modificar los datos.

Los datos pueden ser almacenados y transmitidos de forma segura utilizando servicios de encriptación disponibles en AWS, como KMS (Key Management Service).

Casos de Uso Prácticos

  • Análisis de Datos Sin Servidor
  • Búsqueda Eficiente en Grandes Conjuntos de Datos
  • Integración con Herramientas de Visualización

¿Cómo se compara AWS Athena con las bases de datos tradicionales?

En cuanto a la arquitectura, Athena adopta un enfoque serverless sin necesidad de gestionar infraestructura. Las bases de datos tradicionales requieren configuración y gestión de servidores dedicados para alojar la base de datos, lo que implica mayor esfuerzo de administración.

Los datos en Athena se encuentran almacenados en S3, un servicio altamente escalable para grandes volúmenes de datos distribuidos. En el caso de las bases de datos tradicionales, los datos se alojan en tablas almacenadas localmente siguiendo un modelo relacional.

En las consultas y el rendimiento, las bases de datos tradicionales pueden ser más predecibles en consultas complejas, puesto que disponen de mecanismos de optimización como índices. Sin embargo, estas bases de datos tienen desafíos en el manejo de grandes cantidades de datos, que es donde destaca Athena.

En cuanto a costes, Athena utiliza un modelo de precios basado en el pago por consulta, lo que puede resultar rentable para cargas de trabajo intermitentes, lo que no ocurre en otras soluciones tradicionales.

Ventajas sobre Soluciones On-Premise

Las ventajas de Amazon Athena sobre soluciones on-premise son evidentes, destacando la transición hacia un modelo serverless y la integración fluida con el ecosistema de AWS:

  • Sin Necesidad de Infraestructura On-Premise
  • Escalabilidad Automática
  • Pago por Uso
  • Integración con el Ecosistema AWS
  • Flexibilidad en el Almacenamiento de Datos
  • Eliminación de Tareas de Mantenimiento
  • Reducción del Tiempo de Implementación

Servicios cloud alternativos a Amazon Athena

Siguientes Pasos con Athena

Aquí tienes dos cursos que te ayudarán a aprender cómo usar Athena de forma práctica en tus proyectos de datos con AWS.

Curso Athena Coursera

Análisis serverless de data en Amazon S3 usando Athena

Este proyecto práctico en español te enseña cómo usar Athena con diferentes formatos de almacenamiento para hacer consultas en S3.

Curso Athena Udemy

Consultas serverless con AWS Athena

Este curso disponible en Udemy te enseña los casos de uso de Athena, el uso de particiones en los datos y un laboratorio en el que usarás el servicio con S3 y Glue.

Preguntas Frecuentes

¿Cuáles son las principales limitaciones de Amazon Athena?

Aunque es muy potente, Amazon Athena puede tener limitaciones en el rendimiento con conjuntos de datos extremadamente grandes y complejos y también en las escrituras de datos en S3.

¿Cómo puedo optimizar mis consultas en Amazon Athena?

La optimización de consultas implica el uso de particiones en los datasets y la selección adecuada de tipos de datos, entre otras estrategias.

¿Cuál es la diferencia entre AWS Athena y Amazon Redshift?

Redshift Spectrum permite obtener una buena escalabilidad de cómputo sin añadir nuevos nodos al clúster gestionando consultas SQL directamente sobre S3. Redshift también permite tener un control más fino del rendimiento al estar ligado a un clúster. En el caso de que no necesites el data warehouse y simplemente quieras analizar tus datos en S3, Athena es un servicio más adecuado.

Deja una respuesta