En esta entrada explicamos qué es un plan de recuperación de desastres. Comentamos las buenas prácticas y algunos de los problemas más frecuentes en su implementación a través de los 6 errores más comunes.
Contenidos
¿Qué es un Plan de Recuperación de Desastres?
Un plan de recuperación de desastres (Disaster Recovery, DR o DRP) es un proceso crítico para los negocios que define las actuaciones para recuperar los datos y los sistemas de la organización en una situación de desastre. Esta situación puede deberse a causas naturales, como el fuego o las inundaciones o bien puede estar causada por personas y fallos técnicos. La finalidad es volver a ejecutar sus operaciones con normalidad.
Tener un plan de recuperación de desastres informáticos es fundamental en los sistemas de almacenamiento Big Data. Al tratar cantidades de datos tan grandes, que a menudo son críticas para la organización, debe existir un plan bien definido. Este plan debe minimizar el impacto que pueden tener los posibles desastres en los datos. Para ello nos debemos aprovechar de las ventajas de las tecnologías cloud. Las soluciones de Disaster Recovery se suelen diseñar usando dos o más regiones separadas geográficamente, y de esta forma poder retomar las operaciones si una localización queda inoperativa totalmente.
Además, estos planes deben ser probados y puestos en funcionamiento periódicamente para comprobar su efectividad. Es un área en la que existe poco margen de error, ya que trata situaciones críticas y poco frecuentes. En el mejor de los casos, podría existir pérdida de servicio temporal o pérdida de beneficios. Sin embargo, también puede ser la causa de pérdida permanente de datos, incumplimiento de contratos o de daños a la organización.
Errores comunes en el Plan de Recuperación de Desastres
No actualizar el plan con nuevas tecnologías y sistemas
Con las nuevas tecnologías y soluciones en la nube (Cloud Computing) han aumentado las posibilidades de reforzar los sistemas de recuperación de fallos de las organizaciones. En la actualidad, se pueden automatizar las replicaciones de datos a otras regiones y las copias de seguridad para que la pérdida de servicio sea mínima, y en ocasiones inexistente. Es deber de las organizaciones explorar estas nuevas soluciones e implementar las más adecuadas para su negocio y sus necesidades.
En la definición inicial del plan de recuperación de desastres y continuidad del negocio, se deben incluir todos los sistemas críticos de la organización. Sin embargo, a menudo los sistemas evolucionan, deprecando aplicaciones y sistemas antiguos y agregando nuevas funcionalidades críticas que no quedan reflejadas en el plan de recuperación.
Para evitar estas situaciones, los equipos deben participar en la definición del plan. Con ayuda de las pruebas periódicas y de auditorías, incorporar los nuevos sistemas y servicios. Con este fin, también podría ser muy útil incorporar el plan de DR a los procesos de control de cambios de la organización.
No definir correctamente las métricas de RTO y RPO
El RPO o Punto Objetivo de Recuperación (Recovery Point Objective) es la métrica que indica el máximo periodo de tiempo que la organización está dispuesta a perder datos (desde la última copia o réplica del sistema). Definir un RPO demasiado alto, puede significar unos costes y un impacto mucho más alto para la organización. El RPO afecta a la frecuencia con la que los entornos deben sincronizarse.
El RTO o Tiempo Objetivo de Recuperación (Recovery Time Objective) es el tiempo que pasa para que un sistema vuelva a estar disponible tras el desastre. Define la cantidad de tiempo del que se dispone para restablecer el servicio de los sistemas antes de que impacte negativamente en el negocio.
Además, un buen plan de recuperación de fallos debe definir la cantidad de tiempo máximo que la organización puede tolerar una pérdida de servicio o no tener un funcionamiento normal. Esta definición no afecta solo a los sistemas, sino también a todos los aspectos de la organización para recuperar el servicio: entre otros, los trabajadores y los activos materiales.
No examinar los SLA de los proveedores de servicios
Los SLA (Service Level Agreements o Acuerdos de nivel de servicio) que garantiza el proveedor de servicios son fundamentales para la realización de un plan efectivo. En el caso de incumplir estos acuerdos, el proveedor podría hacerse cargo de los daños económicos, pero esta situación, generalmente, es insuficiente.
Se deben investigar y examinar estos acuerdos de servicio para verificar cómo y dónde se almacenan los datos, cómo se protegen y cuál es la actuación del proveedor ante un fallo y ante un desastre. Desafortunadamente, también es frecuente que algunos proveedores ofrezcan garantías que no pueden cumplir en sus momentos críticos, como el soporte de emergencias 24h que no podrían cumplir por falta de personal.
No probar ni monitorizar el plan de recuperación de desastres
Además de estudiar la teoría, para realizar un plan de recuperación de desastres eficaz se deben poner a prueba todos sus componentes. Tanto de forma individual como en conjunto. También se debe probar que el plan de recuperación de desastres de los proveedores se cumple mediante tests periódicos.
Siempre pueden existir problemas en cualquier pieza del sistema, como fallos de software, de hardware, de dependencias externas, etc. Aun así, estos errores se deben minimizar con las sucesivas pruebas. Quizá las pruebas más interesantes son las que afectan directamente a las personas. Se ha comprobado que las personas son la fuente de errores más común en las organizaciones. Un personal bien entrenado y que conoce los protocolos de recuperación de desastres puede marcar la diferencia en el éxito de las operaciones.
La frecuencia con la que se someten los sistemas a pruebas de recuperación de desastres y continuidad del negocio depende de la organización y de sus protocolos. No se recomienda realizar menos de una prueba al año, que debe evaluar y examinar cuidadosamente los resultados. La prueba resulta en la planificación de las acciones de mejora y los ajustes necesarios para fortalecer todo el plan.
Evaluar los riesgos incorrectos y no incluir nuevas amenazas
Aunque existan riesgos catastróficos para las organizaciones como los desastres naturales o los ataques organizados, el plan de recuperación de desastres informáticos debe evaluar los riesgos en función de su posible impacto y probabilidad de ocurrencia.
Por ejemplo, los desastres causados por catástrofes, fuego o ataques terroristas son muy poco frecuentes. Sin embargo, pueden llegar a ocasionar unas pérdidas enormes si no se tienen reflejadas actuaciones para su recuperación en el plan, como la incorporación de extintores o alarmas.
Los desastres más comunes en relación a los datos de una organización son debidos a ciberataques y a la falta de suministro eléctrico. Ambos pueden ocasionar pérdidas de servicio generalizadas. En los últimos años, se han incrementado los ciberataques a organizaciones con el fin de ocasionar pérdidas de servicio o robos de datos. Para mitigarlo, las organizaciones invierten grandes cantidades de dinero en software especializado como antivirus y seguridad. En el caso de la falta de suministro eléctrico, se puede evaluar la adopción de sistemas de alimentación ininterrumpida (SAI). Otra medida, podría ser incluir proveedores de suministro redundantes o duplicados.
Además, emergen continuamente nuevas amenazas, que se deben identificar y evaluar periódicamente.
No incluir en el plan de recuperación de desastres los protocolos de comunicación
Los protocolos y las pruebas definidas en el plan de recuperación ante desastres de las organizaciones suelen pasar por alto la definición de la comunicación con los equipos.
Es muy importante detectar y comunicar el problema a los equipos de trabajo involucrados así como volver a poner en funcionamiento los sistemas y notificar a los equipos correspondientes de que están operativos de nuevo.
También debe incluir la asistencia y el soporte que los usuarios de los sistemas (internos y externos a la organización) pueden necesitar para recuperar su actividad. Para ello, el conocimiento de las actuaciones debe estar presente en toda la organización.
Siguientes Pasos y Formación
Para seguir leyendo, visita los artículos:
Aprende más sobre continuidad del negocio y recuperación de desastres con estos dos cursos que tienes disponibles en Udemy:
Guía para la continuidad del negocio y la recuperación ante desastres
Este curso te enseñará a analizar el impacto empresarial de los riesgos y las amenazas. Comprenderás las diferencias entre planes de continuidad empresarial y planes de recuperación de desastres y cómo realizarlos correctamente.
Recuperación ante desastres: TI y planificación de la continuidad del negocio (BCP)
Este curso es también parecido. Se centra en los tipos de desastres, cómo mitigarlos y cómo planificar la continuidad empresarial ante las situaciones de desastre.
También comparto con vosotros una infografía sencilla para tener en cuenta estos errores comunes al definir vuestro plan de recuperación ante desastres. ¡Compártelo!
Preguntas Frecuentes – FAQ
¿Qué es el RTO y el RPO en el contexto de la recuperación de desastres?
RTO (Recovery Time Objective): El tiempo máximo tolerable que una aplicación, sistema o función puede estar inactiva después de un desastre.
RPO (Recovery Point Objective): La cantidad máxima de datos que se puede perder medida en el tiempo antes de un desastre. Indica el punto en el tiempo al que los datos deben ser restaurados para continuar las operaciones sin pérdidas significativas.
¿Cuáles son algunas estrategias comunes de recuperación de desastres?
- Backups regulares: Realización de copias de seguridad periódicas de datos críticos.
- Replicación de datos: Duplicación de datos en tiempo real a ubicaciones secundarias.
- Sitios de recuperación alternativos: Utilización de sitios físicos o en la nube para restaurar operaciones.
- Planificación de continuidad del negocio: Integración de la recuperación de desastres con la continuidad del negocio.
- Implementación de tecnologías de alta disponibilidad: Uso de soluciones como clusters y balanceadores de carga para minimizar el tiempo de inactividad.
¿Cuál es la diferencia entre recuperación de desastres y continuidad del negocio?
Recuperación de desastres: Se enfoca en restaurar sistemas y datos después de un evento disruptivo. Es una parte integral de la continuidad del negocio.
Continuidad del negocio: Abarca un enfoque más amplio que incluye la planificación y preparación para mantener todas las operaciones críticas de la organización durante y después de una interrupción.
A continuación el vídeo-resumen. ¡No te lo pierdas!