¿Qué es el BIG DATA?

Última actualización: 12/06/2020

Big Data: ¿En qué consiste?

El término Big Data se refiere a grandes conjuntos de datos, con un volumen tan grande que es necesario el uso de técnicas y herramientas específicas para tratarlos. Debido a sus características de tamaño, velocidad de crecimiento y variabilidad, las tecnologías y métodos tradicionales no son suficientes para gestionar estos datos de una manera eficiente. Entre estas tecnologías tradicionales se encuentran las bases de datos relacionales.

Que es el Big Data

Entre estas herramientas informáticas diseñadas para tratar grandes cantidades de datos se encuentra software específico, generalmente distribuido y capaz de escalar con el volumen y la velocidad en la que se generan los datos.

No existe un tamaño de datos específico a partir del cual se puede considerar Big Data, ya que esta referencia evoluciona con el tiempo y con los avances tecnológicos. Sin embargo, los especialistas suelen referirse con el término Big Data a conjuntos de datos a partir de decenas de Terabytes.

Importancia del Big Data

Esta generación de datos masivos y su almacenamiento, procesamiento y análisis se ha vuelto crítica para muchas organizaciones, siendo uno de los sectores con más crecimiento y trayectoria profesional en la actualidad. Se espera que el sector del Big Data multiplique por 4 su valoración en el mercado en los próximos 3 años, incluyendo el internet de las cosas, cloud computing, inteligencia artificial y automatización.

El valor que las organizaciones pueden extraer de estos datos se centra en su uso para la toma de mejores decisiones estratégicas, desarrollo de modelos matemáticos, inteligencia artificial, etc.

En muchas ocasiones, el análisis de los datos obtenidos por una organización puede dar pistas e ideas acerca de nuevos problemas, y responder a muchas preguntas basándose en información objetiva, lo que aumenta la seguridad y la confianza.

Mediante el conocimiento extraído del análisis de los datos, las organizaciones son capaces de encontrar nuevas tendencias, por ejemplo de consumo. Ésto aporta mucho valor y permite reaccionar en tiempo y con una velocidad más alta que si no se dispusiera de esta información.

Naturaleza de los datos

En gran medida, los datos generados en la actualidad son de naturaleza no estructurada. Las fuentes de datos son muy diversas, pueden ser desde sensores y dispositivos IoT hasta datos generados por dispositivos móviles o páginas web.

En general, los datos no estructurados necesitan combinarse con datos estructurados procedentes de bases de datos relacionales para obtener información de valor. De esta forma, los datos se combinan, se enriquecen y se agregan mediante procesos de transformación como ETL.

Es posible clasificar los datos en tres grandes grupos en función de su naturaleza:

Datos estructurados

Los datos estructurados tienen definida su longitud, tamaño y formato (tipo). Esta organización externa facilita su procesamiento y su almacenamiento en bases de datos. El ejemplo más sencillo de datos estructurados son los almacenados en las bases de datos relacionales en forma de tablas.

Datos no estructurados

Los datos no estructurados se caracterizan por no tener un esquema fijo, suelen estar producidos por fuentes heterogéneas. Estos datos no han sido organizados en formatos óptimos para su procesamiento y almacenamiento.

Como ejemplos de datos no estructurados podemos considerar las siguientes categorías:

  • Documentos
  • Imágenes
  • Vídeos
  • Audio

Datos semiestructurados

Los datos semiestructurados son una mezcla entre los dos tipos anteriores. Estos datos no tienen una estructura fija como los datos estructurados, sin embargo, están organizados mediante metadatos (información asociada) o mediante relaciones simples entre ellos.

Debido a estas características, los datos semiestructurados son más fáciles de procesar que los datos no estructurados. A menudo, los datos semiestructurados se denominan autodescriptivos, ya que contienen las etiquetas o separadores necesarios para separar sus campos y elementos.

El marcado implícito de estos datos, facilita su uso para la comunicación entre aplicaciones y su serialización. Un ejemplo de datos semiestructurados son los datos almacenados en JSON o XML.

aprender big data discos

Las Vs del Big Data

A menudo se hace referencia a las Vs del Big Data, que indican las características y principios por los que se describen los datos. Estos principios son las siguientes:

  • Volumen: Cantidad de datos generados y almacenados. Esta cantidad determina si es considerado Big Data y el valor que podría aportar. ¿A qué escala de datos se está operando? ¿Qué orden de magnitud? ¿GB o PB?
  • Velocidad: El ratio al que se generan y se procesan estos datos para cumplir con los objetivos. Generalmente, el Big Data se genera a una frecuencia alta y de forma continua. ¿Cuál es la frecuencia de los eventos que se procesan?
  • Variedad: La tipología y naturaleza de los datos. Su variación y diversidad. Se compone de datos estructurados, no estructurados y semiestructurados. ¿Cuántas fuentes de datos existen en el sistema? Si los datos son estructurados, ¿su esquema varía en el tiempo?
  • Veracidad: Se refiere al origen y la confianza que se tiene en los datos. La calidad de los datos es fundamental para determinar su potencial valor y relevancia. ¿Puedes confiar en los datos? ¿Se deben realizar operaciones de limpieza antes de manipular los datos?
  • Valor: Los datos deben ser útiles y generar un valor.

Preguntas frecuentes sobre el Big Data – FAQ

¿Qué es y para qué sirve el Big Data?

El Big Data consiste en tratar grandes conjuntos de datos. Estos datos tienen un volumen tan grande que son necesarias herramientas y tecnologías específicamente diseñadas para tratarlos de forma eficiente. Los métodos tradicionales de procesamiento y almacenamiento de datos no son suficientes.

¿Qué es el análisis de Big Data?

El análisis de Big Data consiste en extraer valor de las grandes cantidades de datos generados y almacenados por las organizaciones. Para ello existen numerosas técnicas y algoritmos de análisis y de machine learning que son de utilidad para sacar partido de los datos.

¿Por qué es importante el Big Data?

El Big Data es fundamental para las organizaciones debido al valor que se puede extraer de estos datos. Los datos se pueden usar para tomar mejores decisiones estratégicas, encontrar patrones y tendencias de consumo u optimizar los procesos existentes.

¿Qué son los datos no estructurados?

Los datos no estructurados son los datos sin esquema fijo, generalmente producidos por fuentes heterogéneas como los documentos, el vídeo o el audio.

¿Cuáles son las Vs del Big Data?

Las características del Big Data se representan con las Vs: Volumen, Velocidad, Variedad, Veracidad y Valor.


Invierte ya en tu formación y conviértete en experto Big data y Hadoop con el curso de especialización recomendado. ¡No lo dudes!


A continuación el vídeo-resumen. ¡No te lo pierdas!


¡Echa un ojo a mi lista de reproducción de Big Data en Youtube!

Si te ayuda el contenido del blog, por favor considera unirte a la lista de correo para reconocer el trabajo!

Esta entrada tiene un comentario

  1. Anónimo

    gracias muy conciso y claro ¡¡¡

Deja una respuesta