Cómo empezar en Big Data

Así que quieres comenzar en esto del Big Data, te llama la atención pero no sabes cómo hacerlo o quieres dar un giro a tu carrera profesional. También sabes que quieres aprender a distinguir tecnologías como Kafka, Spark, Flink o Flume de nombres de Pokémons. Te lías entre términos como data engineer y data scientist. O puede ser que hayas estudiado informática y te gustaría especializarte pero estás indeciso…

Empezar a aprender big data

No te preocupes… ¡Este es tu sitio! Tanto si estás aquí porque eres un especialista en Big Data, un profesional, un emprendedor o bien porque quieres aprender sobre este sector con tanto potencial.

El término Big Data se refiere a grandes conjuntos de datos, con un volumen tan grande que es necesario el uso de técnicas y herramientas específicas para tratarlos. Debido a sus características de tamaño, velocidad de crecimiento y variabilidad, las tecnologías y métodos tradicionales no son suficientes para gestionar estos datos de una manera eficiente

Los datos se han convertido en uno de los recursos más abundantes. Generar y acumular datos es una tarea muy común, la dificultad aparece al procesarlos.

Antes que nada, quiero dejar claro que el Big Data no es una tecnología en particular, ni una metodología de trabajo o habilidad que se pueda aprender de la noche a la mañana. Para conseguir desenvolverte de forma competente en este sector deberás emplear tiempo y trabajo, pero es algo que cualquier persona con la suficiente pasión y ganas puede alcanzar.

El Big Data es un conjunto de tecnologías, herramientas y formas de resolver problemas técnicos que se usan en varios escenarios en función de las necesidades que una organización tenga en torno a sus datos. Existen, por tanto, varios perfiles profesionales que se han ido especializando en torno a este sector.

Perfiles profesionales en Big Data

La primera decisión que debes tomar es en qué tipo de perfil te vas a especializar. Existe todo un abanico de perfiles técnicos y no técnicos, pero para simplificarlo vamos a listar solamente 3 grupos:

Ingeniero de Datos (Data Engineer)

Podríamos decir que el perfil de ingeniero de datos es el más técnico de la lista. Se encargan de diseñar, construir y gestionar los datos y la infraestructura necesaria para ello. Construyen la base tecnológica para que los científicos de datos o analistas puedan realizar sus tareas. Son los responsables de mantener sistemas escalables y con alta disponibilidad, integrando nuevas tecnologías y desarrollando el software necesario.

Deben conocer el stack de tecnologías big data, entender cómo se integran sus tecnologías y las formas de procesar, transformar y tratar los datos con herramientas de ingesta y ETL. En esta categoría también podríamos incluir los arquitectos de datos, ingenieros de software Big Data, desarrolladores y administradores.

Entre las herramientas más importantes para los ingenieros de datos se encuentran Apache Spark y Apache Kafka. Además, deben estar familiarizados con soluciones cloud como AWS o Azure. Estas plataformas en la nube no hacen más que crecer y siempre van a estar presentes, por lo tanto, es una muy buena idea reforzar estas habilidades. Es imposible conocer todas las tecnologías en detalle, por lo que un buen ingeniero de datos sabe cómo especializarse en el conjunto de tecnologías que más le interesen y enfocar su aprendizaje paso a paso.

Aprende más sobre este perfil en el artículo Ingeniero de Datos: Lo que necesitas saber.

Científico de Datos (Data Scientist)

Los científicos de datos y perfiles similares disfrutan de una alta demanda profesional en la actualidad, es la profesión de moda y por tanto son perfiles muy cotizados por las empresas. Y es que ninguna empresa desea tener una fuente de beneficios sin explotar.

La principal función de su trabajo es extraer conocimiento e ideas que tengan un impacto en los negocios a partir de los datos que analizan e interpretan. Para ello, se encargan de limpiar los datos, estructurarlos y crear modelos de datos usando técnicas de análisis.

Necesitan una buena base matemática, estadística y en lenguajes de consulta y programación orientados a analítica, como pueden ser SQL, R o Python, así como estar familiarizados con técnicas de machine learning. Estos tres lenguajes son los más populares y demandados a científicos de datos, aunque es común que trabajen también con herramientas como Excel o Tableau.

También deben saber cómo presentar los resultados a los distintos departamentos de la organización de manera clara. En esta categoría también podríamos incluir especialistas en inteligencia artificial, machine learning, analistas de datos, etc.

Analista de Negocio (Business Analyst)

Son expertos en el sector en el que trabajan, estos perfiles intentan reducir la diferencia que existe entre la parte IT y negocio. Para ello, proporcionan mejoras para el negocio basadas en tecnología, por ejemplo para aumentar la productividad. También identifican necesidades del negocio y el impacto de la tecnología.

Generalmente, al ser un perfil más próximo a negocio, no son necesarios grandes conocimientos de base tecnológica como de programación sino alrededor de herramientas de visualización de datos e inteligencia de negocio (BI) como pueden ser Tableau. También resulta muy útil el conocimiento para extraer datos de las bases de datos y Data Warehouses corporativos, para lo que se usa el lenguaje SQL.

En esta categoría también podríamos incluir especialistas en BI (Business Intelligence).

En el blog, vamos a escribir artículos útiles para todos los profesionales del Big Data, todos ellos deberían estar informados de las tecnologías y de la actualidad del sector.

Entradas más populares

A continuación dejo una lista con los posts del blog más introductorios, sobre tecnología y conceptos fundamentales alrededor del Big Data.

Aprende qué es el Big Data

Para empezar

Formación Big Data

En esta sección enlazaré cursos online, presenciales, masters y formaciones de Big Data que me parezcan útiles y de calidad.

Si quieres profundizar más sobre Big Data y Hadoop, te recomiendo empezar con este curso online, que parte de cero y tiene un gran componente práctico que te permitirá desenvolverte con facilidad y demostrar tu conocimiento en el sector:

Mantente al día

Aquí tienes una recopilación de recursos externos para mantenerte al día en el sector. Estos son los canales de Youtube y podcasts a los que recomiendo prestar atención:

¡No te olvides de seguirme en redes sociales y de esta forma crear una gran comunidad!

En el blog se publicarán futuros cursos, recursos, artículos e información útil para todo aquel con interés.

Participa

La mejor forma de aprender es haciendo. Te animo a colaborar en la comunidad Open Source. Muchas de las herramientas y tecnologías Big Data se desarrollan con un modelo Open Source, esto quiere decir que está implementado por la comunidad, de una manera abierta, pudiendo leer el código y participar.

Una muy buena idea es contribuir con algún proyecto que llame tu atención, te parezca interesante o pienses que tienes algo que aportar. Pero esto no tiene por qué ser en forma de código, hay muchas maneras de contribuir en el Open Source como se explica en esta guía. Muchos de estos proyectos se encuentran bajo la Apache Software Foundation. Puedes acceder a la lista de sus proyectos aquí.

Otra forma de participar y publicitar tu experiencia es escribiendo artículos sobre lo que vas aprendiendo, no tienen por qué ser muy extensos, técnicos o perfectos, simplemente deben aportar valor y ayudar a la comunidad. ¡Escríbeme un mensaje si estás interesado en publicar cualquier contenido!

Empleo en Big Data

Reservo esta sección para publicar portales de empleo e información de interés relativa al empleo en el sector.


[Guía en construcción]

aprender big data discos