Databricks CLI: Esenciales para Ingenieros de Datos

  • Tiempo de lectura:9 minutos de lectura
  • Autor de la entrada:
  • Última modificación de la entrada:30/03/2025

La Databricks CLI (Command Line Interface) es una herramienta imprescindible para cualquier ingeniero de datos que trabaje con la plataforma Databricks. Permite interactuar con Databricks desde la terminal, lo que facilita la automatización de tareas y la administración de entornos sin necesidad de usar la interfaz gráfica.

Databricks CLI

En este artículo, exploraremos qué es Databricks CLI, cómo instalarlo, cómo utilizarlo y sus principales beneficios, incluyendo ejemplos prácticos para sacarle el máximo provecho.

¿Qué es Databricks CLI y para qué sirve?

La Databricks CLI es una herramienta de línea de comandos que permite gestionar los recursos de Databricks directamente desde la terminal. Con esta herramienta, puedes:

  • Administrar clústeres (crear, eliminar y monitorear).
  • Ejecutar y programar trabajos en Databricks.
  • Gestionar notebooks y repositorios de código.
  • Subir y descargar archivos de DBFS (Databricks File System).
  • Automatizar tareas mediante scripts en Bash o Python.

Para cualquier ingeniero de datos, esta CLI es esencial, ya que evita la necesidad de interactuar con la interfaz web y permite trabajar de forma más ágil.

En mi experiencia es una herramienta excelente para administrar entornos Databricks y realizar pruebas de manera eficiente. Su capacidad de automatización es clave en cualquier flujo de trabajo de datos.

Instalación y configuración de Databricks CLI

Antes de usar Databricks CLI, es necesario instalarlo y configurarlo.

Requisitos previos

  • Tener Python 3 instalado en tu sistema.
  • Contar con pip, el gestor de paquetes de Python.
  • Disponer de una cuenta de Databricks con los permisos adecuados.

Instalación

La instalación se realiza con el siguiente comando:

pip install databricks-cli

Para verificar la instalación:

databricks --version

Una vez instalado, necesitas autenticarte en tu cuenta de Databricks. Para ello, usa el siguiente comando:

databricks configure --token

Luego, introduce:

  • Databricks Host: La URL de tu instancia de Databricks.
  • Token de autenticación: Se obtiene desde User Settings > Access Tokens en la interfaz web de Databricks.

Si todo está bien, ya puedes empezar a utilizar los comandos de la CLI.

Principales comandos de Databricks CLI

Aquí te dejo una lista con los comandos más utilizados:

Administración de clústeres

databricks clusters list  # Listar clústeres activos
databricks clusters create --json config.json # Crear un clúster
databricks clusters delete --cluster-id <id> # Eliminar un clúster

Gestión de notebooks

databricks workspace import my_notebook.py /Users/notebook
databricks workspace export /Users/notebook my_notebook.py

Subir archivos a DBFS

databricks fs cp my_file.csv dbfs:/mnt/data/

La documentación completa de comandos está disponible en el repositorio oficial:
🔗 GitHub – Databricks CLI

Automatización de tareas con Databricks CLI

Uno de los mayores beneficios de Databricks CLI es su capacidad de automatizar tareas. Puedes escribir scripts en Bash o Python para desplegar automáticamente entornos de trabajo, ejecutar notebooks programáticamente o Administrar permisos y roles dentro de Databricks.

Puedes ejecutar un notebook desde la terminal con este comando:

databricks notebooks run --notebook-path /Users/mi_notebook

También puedes integrarlo en un script de Bash para ejecutarlo periódicamente:

#!/bin/bash
databricks notebooks run --notebook-path /Users/mi_notebook
echo "Notebook ejecutado correctamente."

Siempre que puedo implemento este tipo de automatizaciones para gestionar notebooks y clusters para ahorrar tiempo y sobre todo, reducir errores manuales.

Databricks CLI también facilita la administración de entornos de desarrollo y producción, por ejemplo para configurar múltiples entornos como dev, pre y pro. Otra cosa que podemos hacer fácilmente es gestionar las librerías y las dependencias en los clústeres y monitorizar sus logs.

Para instalar una librería en un clúster:

databricks libraries install --cluster-id <id> --pypi-name pandas

Esto nos permite mantener un entorno controlado sin depender de la interfaz web.

Alternativas y complementos a Databricks CLI

Aunque la CLI de Databricks te servirá para la mayoría de tareas, también existen otras herramientas que pueden complementarla:

  • Databricks REST API → Permite interactuar con Databricks mediante HTTP requests.
  • Terraform para Databricks → Ideal para gestionar infraestructura como código.
  • DBConnect → Para interactuar con Databricks desde notebooks en Jupyter o VSCode.

Si aún no la has probado, te recomiendo instalarla y empezar a experimentar con sus comandos. ¡Seguro que te facilitará el trabajo diario!

Siguientes Pasos, Formación y Cursos de Databricks

Aquí tienes mi propio curso para que aprendas de forma eficiente Databricks, para cualquier nivel:

Curso de Databricks

Curso de Introducción a Databricks

Este curso te preparará para comprender y sacar todo el partido posible al ecosistema de Databricks.

Explorarás conceptos fundamentales como la arquitectura de Databricks, los tipos de clústeres, Delta Lake, Unity Catalog y la integración con Azure Data Lake Storage.

En las secciones prácticas, pondrás manos a la obra utilizando la interfaz gráfica, configurando clústeres, trabajando con notebooks, gestionando costes y securizando accesos

Deja una respuesta