HDFS: Guía de Comandos Básicos

Última actualización: 07/04/2022

Aprende en esta guía los comandos más usados de HDFS (Hadoop Distributed File System) para listar, leer y escribir ficheros, cargar y descargar y gestionar los permisos y el sistema.

Comandos básicos HDFS

Puedes descargar HDFS desde el repositorio oficial de Hadoop. Ahí encontrarás los binarios de todo el software necesario para desplegar un clúster de HDFS.

Los comandos básicos de Hadoop y de HDFS son similares a los que podrás usar en una terminal de un sistema Linux, a continuación presento una lista con los comandos de HDFS más importantes divididos por secciones en función de su utilidad.

Listar Ficheros en HDFS

COMANDODESCRIPCIÓN
hdfs dfs -ls /Lista todos los ficheros y directorios para el path /
hdfs dfs -ls -h /Lista los ficheros con su tamaño en formato legible
hdfs dfs -ls -R /Lista todos los ficheros y directorios recursivamente (con subdirectorios)
hdfs dfs -ls /file*Lista todos los ficheros que cumplen el patrón (ficheros que comienzan con ‘file’)

Leer y Escribir Ficheros

COMANDODESCRIPCIÓN
hdfs dfs -text /app.logImprime el fichero en modo texto por la terminal
hdfs dfs -cat /app.logMuestra el contenido del fichero en la salida estándar
hdfs dfs -appendToFile /home/file1 /file2Añade el contenido del fichero local ‘file1’ al fichero en hdfs ‘file2’

Cargar y Descargar Ficheros

COMANDODESCRIPCIÓN
hdfs dfs -put /home/file1 /hadoopCopia el fichero ‘file1’ del sistema de ficheros local a hdfs
hdfs dfs -put -f /home/file1 /hadoopCopia el fichero ‘file1’ del sistema de ficheros local a hdfs y lo sobreescribe en el caso de que ya exista
hdfs dfs -put -l /home/file1 /hadoopCopia el fichero ‘file1’ del sistema de ficheros local a hdfs. Fuerza replicación 1 y permite al DataNode persistir los datos de forma perezosa.
hdfs dfs -put -p /home/file1 /hadoopCopia el fichero ‘file1’ del sistema de ficheros local a hdfs. Mantiene los tiempos de acceso, de modificación y propietario original
hdfs dfs -get /file1 /home/Copia el fichero ‘file1’ de hdfs al sistema de ficheros local
hdfs dfs -moveFromLocal /home/file1 /hadoopCopia el fichero ‘file1’ del sistema de ficheros local a hdfs y luego lo borra del sist. ficheros local

Gestión de Ficheros

COMANDODESCRIPCIÓN
hdfs dfs -cp /hadoop/file1 /hadoop1Copia el fichero al directorio destino en hdfs
hdfs dfs -cp -p /hadoop/file1 /hadoop1Copia el fichero al directorio destino en hdfs conservando tiempos de acceso y de modificación, propietario y modo
hdfs dfs -rm /hadoop/file1Elimina el fichero ‘file1’ de hdfs y lo envía a la papelera
hdfs dfs -rm -r /hadoop
hdfs dfs -rm -R /hadoop
hdfs dfs -rmr /hadoop
Elimina el directorio y su contenido en hdfs
hdfs dfs -rm -skipTrash /file1Elimina el fichero sin dejarlo en la papelera
hdfs dfs -mkdir /hadoop2Crea un directorio en hdfs
hdfs dfs -touchz /hadoop3Crea un fichero en hdfs con tamaño 0

Gestión de Permisos

COMANDODESCRIPCIÓN
hdfs dfs -checksum /hadoop/file1Muestra la información checksum del fichero
hdfs dfs -chmod 775 /hadoop/file1Cambia los permisos del fichero en hdfs
hdfs dfs -chmod -R 755 /hadoopCambia los permisos de los ficheros recursivamente
hdfs dfs -chown hadoop:hadoop /file1Cambia el propietario y el grupo del fichero
hdfs dfs -chown -R hadoop:hadoop /file1Cambia el propietario y el grupo recursivamente
hdfs dfs -chgrp hadoop /file1Cambia el grupo del fichero

Comandos de Administración

COMANDODESCRIPCIÓN
hdfs dfs -df /hadoopMuestra la capacidad y el espacio libre y usado del sistema de ficheros
hdfs dfs -df -h /hadoopMuestra la capacidad y el espacio libre y usado del sistema de ficheros en formato legible
hadoop versionMuestra la versión de hadoop
hdfs fsck /Comprueba el estado de salud del sistema de ficheros
hdfs dfsadmin -safemode leaveDeshabilita el modo seguro del NameNode
hdfs namenode -formatFormatea el NameNode

Siguientes pasos y Cursos de HDFS

Aquí tienes dos cursos muy recomendados con los que consolidarás conceptos fundamentales para convertirte en experto de estas tecnologías fundamentales para los ingenieros de datos. Estos cursos te enseñarán todo lo que necesitas para manipular el sistema de ficheros distribuido de Hadoop HDFS en un entorno empresarial. Aprenderás a navegar por el sistema de archivos con línea de comandos, implementar clústeres y automatización.

Curso Hadoop Coursera

Curso completo de la Plataforma Hadoop

Aprende Hadoop a fondo con este. Está disponible en Coursera y ofrecido por la Universidad de San Diego. Con este curso aprenderás los conceptos clave de Hadoop MapReduce. La ventaja es que podrás ir al ritmo que consideres adecuado, tanto en las clases de teoría como en los ejercicios y laboratorios que tendrás disponibles. Se divide en 4 módulos con 26 horas de contenido que ya han cursado más de 140000 estudiantes.

  1. Fundamentos de Hadoop
  2. Stack de Hadoop
  3. HDFS
  4. MapReduce
  5. Apache Spark
Curso Hadoop Completo Coursera

Introducción a Big Data con Hadoop y Spark

En este curso ofrecido por IBM en Coursera podrás aprender los conceptos básicos de Hadoop y spark aplicando ejemplos. Cuenta con más de 11 horas de contenido y más de 6000 estudiantes. Se divide en 6 módulos:

  1. Qué es Big Data
  2. Introducción al ecosistema Hadoop
  3. Apache Spark
  4. Dataframes y Spark SQL
  5. Desarrollo y Runtime
  6. Monitorización y configuración

También, te recomiendo el siguiente libro fundamental. Puedes encontrarlo en Amazon:


A continuación, el vídeo-resumen. ¡No te lo pierdas!


Deja una respuesta