Esta entrada es una recopilación de los mejores libros de Big Data. Libros esenciales que aportarán mucho valor a tus habilidades técnicas y te permitirán convertirte en un experto.
Aquí te dejo una lista de sugerencias de los mejores libros de big data, ¡siéntete libre de proponer nuevos libros y nuevas ideas!
Mejores libros de Big Data
Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems
Martin Kleppmann
Libro orientado a ingenieros de datos y arquitectos de software con interés en desarrollar aplicaciones con un backend para procesar o almacenar datos. Gran ayuda para tomar decisiones de arquitectura y entender las ventajas e inconvenientes de cada solución en torno a los datos y a desarrollar sistemas escalables.
Architecting Modern Data Platforms
Jan Kunigk, Lars George, Paul Wilkinson, Ian Buss
Este es un buen libro para comprender las soluciones empresariales basadas en el ecosistema Hadoop. Se centra en explicar su arquitectura y particularidades en detalle con ejemplos prácticos que abarcan todo el rango de soluciones end-to-end. Está escrito con un lenguaje fácil de entender para iniciados con más o menos experiencia en entornos big data.
Spark: The Definitive Guide: Big data processing made simple
Bill Chambers, Matei Zaharu
Libro práctico sobre Apache Spark. Aprende a desarrollar aplicaciones big data con las últimas versiones de Spark. Repasa las operaciones básicas del framework de programación, su API y Spark Streaming. El libro también explica cómo mantener un clúster de Apache Spark y todo lo necesario alrededor de esta tecnología de una manera clara y concisa y con ejemplos en Python y Scala.
Hadoop: The Definitive Guide
Tom White
La guía completa de Apache Hadoop. Explica cómo sacar partido de la tecnología y desarrollar sistemas y aplicaciones distribuidas y escalables con este framework de procesamiento big data. Es un libro fundamental para programadores y administradores de sistemas big data con el que aprenderán a poner en funcionamiento clústers Hadoop. Repasa los componentes principales: MapReduce, HDFS y Yarn, además de las principales herramientas de ingesta y de procesamiento.
Foundations for Architecting Data Solutions: Managing Successful Data Projects
Ted Malaska, Jonathan Seidman
Explica conceptos fundamentales para implementar soluciones big data en las organizaciones. Es un libro práctico que cubre diferentes casos de uso, con patrones de diseño y etapas en el ciclo de desarrollo. También se puede usar como una lista de buenas prácticas y de conceptos de alto nivel a recordar al implementar un proyecto big data.
The Enterprise Big Data Lake
Alex Gorelik
En este libro aprenderás qué es un Data Lake y cómo se usa de forma efectiva en las organizaciones a través de sus casos de uso. Además, aprenderás a construir un data lake con las buenas prácticas asociadas para servir como Data Warehouse, soporte para big data y analítica.
Big Data For Dummies
Judith Hurwitz, Alan Nugent, Marcia Kaufman, Fern Halper, Dan Kirsch
Libro de introducción al big data. Los autores explican las ideas fundamentales detrás del sector, los problemas y las soluciones más comunes y el potencial que existe detrás de todos estos datos para las organizaciones. Como indica su título, es un libro de iniciación al big data, y profesionales con experiencia no podrán sacar todo el partido de este libro.
Streaming Systems
Tyler Akidau, Slava Chernyak, Reuven Lax
Este libro explica en profundidad los conceptos alrededor de los sistemas de streaming para big data. Es una guía práctica para entender las características de estos sistemas, aplicarlos a nuestros proyectos y sacar partido a las tecnologías desarrolladas en torno al procesamiento de flujos de datos. Repasa conceptos como tiempos de eventos, marcas de agua o garantías de entrega en sistemas distribuidos.
Big Data: Principles and best practices of scalable realtime data systems
Nathan Marz, James Warren
Este libro enseña cómo construir sistemas big data a través de ejemplos y explicando las buenas prácticas y métodos de escalabilidad. Tiene varias secciones para cada una de las 3 capas en los sistemas lambda: batch, streaming y serving layer. No se hace pesado de leer y los conceptos se explican de una manera clara.
Kafka – The Definitive Guide
Neha Narkhede, Gwen Shapira, Todd Palino
Guía completa para aprender Apache Kafka. Mediante teoría y ejemplos da una visión completa de la tecnología y sus casos de uso, tanto para administradores, arquitectos y desarrolladores de software que quieran integrar Apache Kafka en sus sistemas. Escrito por ingenieros de Confluent, la empresa detrás de su desarrollo.
Otros posts de interés:
- Mejores libros de Programación y Software
- Mejores libros de Arquitectura del Software
- Los Mejores libros de Data Science
- Libros recomendados de Python
- Libros recomendados de Cloud Computing