• Blogs
  • Ruben
  • Estrategias de recuperación para un plan de continuidad del negocio

Estrategias de recuperación para un plan de continuidad del negocio

Estrategias de recuperación para un plan de continuidad del negocio

Cuanto más cortos son el RTO y el RPO , más complejos y caros son los planes de continuidad de negocio. Estos dos parámetros son además los que deciden la estrategia de recuperación a seguir.

RTO (Recovery Time Objetive) : El objetivo de tiempo de recuperación (RTO) es la duración específica del tiempo y un nivel de servicio dentro del cual debe restaurarse un proceso comercial después de un desastre (o interrupción) para evitar consecuencias inaceptables asociadas con una interrupción en la continuidad del negocio. Puede incluir el tiempo para intentar solucionar el problema sin una recuperación, la recuperación en sí misma, las pruebas y la comunicación a los usuarios.

El RTO y los resultados del BIA en su totalidad proporcionan la base para identificar y analizar estrategias viables para su inclusión en el plan de continuidad del negocio. Las opciones de estrategia viables incluirían cualquiera que permita la reanudación de un proceso comercial en un marco de tiempo en o cerca del RTO. Esto incluiría procedimientos de solución alternativa o manual y no requeriría necesariamente que los sistemas informáticos cumplan con los RTO.

RPO (Recovery Point Objetive) : El objetivo del punto de recuperación (RPO) se define mediante la planificación de la continuidad del negocio. Es el período objetivo máximo en el que se pueden perder datos de un servicio de TI debido a un incidente importante. El RPO le da a los diseñadores de sistemas un límite para trabajar. Por ejemplo, si el RPO está configurado en cuatro horas, entonces, en la práctica, las copias de seguridad duplicadas fuera del sitio deben mantenerse continuamente, una copia de seguridad diaria fuera del sitio en cinta no sería suficiente.

El estudio incluye las siguientes perspectivas:

  • Punto de vista económico
  • Punto de vista del tiempo de recuperación e indisponibilidad del sistema
  • Punto de vista de definición y estimación de parámetros como el RPO y RTO
  • Punto de vista de dependencia con el incidente del centro principal: el principal problema es el activo información en forma de datos
  • Punto de vista de procedimientos y procesos
  • Punto de vista de pruebas

Centrándonos en la principal estrategia para un plan de continuidad de negocio que suele ser disponer de un centro de procesos de datos o CPD alternativo o de respaldo, podemos tener los siguientes escenarios o estrategias:

Acuerdos entre partes

Dos o más empresas acuerdan proveerse mutuamente de instalaciones en caso de emergencia. Se reservan espacios y, en caso de desastre, sólo se necesita transportar los equipos y conectarlos a la red de la empresa “receptora".

Ventajas

Desde el punto de vista económico, es la estrategia de menor coste de todas. Incluso, dependiendo si el acuerdo establece que la reserva de espacio es gratuita, puede incluso que el coste asociado a las instalaciones sea cero.

Para cierto tipo de incidencias, el tiempo de recuperación puede ser menor y de menor complejidad. Por ejemplo, para una incidencia en el equipamiento auxiliar como corte en el suministro eléctrico o corte en las comunicaciones, al mover los equipos del entorno de producción al DRS, éstos arrancarán con la misma configuración e información que el CPD principal, por lo que los trabajos de puesta en marcha de los servicios serán más sencillos.

Igualmente, los trabajos de configuración son menores cuando se devuelven los equipos al centro principal.

Los procedimientos y procesos definidos en el plan de continuidad harán referencia a los equipos del sitio principal, por lo que los técnicos y operadores estarán más habituados

Inconvenientes

Esta estrategia es dependiente de la degradación de los activos del sistema principal, y puede darse el caso que no se pueda dar servicio desde el sitio de respaldo. Por ejemplo, si no se da servicio por avería de un servidor, ese servidor tampoco dará servicio en el centro de respaldo.

Igualmente, es necesario ser consciente que no es una estrategia válida en caso de degradación de los datos: los datos estarán igual de degradados si se accede a ellos desde el sitio principal como desde el de emergencia.

Adicionalmente, habrá incidentes de los que no se conozca el impacto en los activos hasta que se intente que den servicio desde el sitio de respaldo. Por ejemplo, ante un corte de suministro eléctrico de larga duración en el que se decida mover los equipos al sitio de referencia, puede darse el caso que al iniciar algún equipo nos demos cuenta que el corte eléctrico incluía un pico de tensión que haya afectado al equipo y haya que cambiar piezas o directamente haya sido destruido.

Por tanto, esta estrategia lleva asociada una incertidumbre de si se podrá dar servicio desde el sitio de respaldo, por lo que sólo es válida para riesgos asociados a ciertos tipos de amenazas con bajo impacto de los activos.

Además, se crea una dependencia de los servicios críticos en terceros: con esta estrategia se crea una dependencia de los servicios e información esencial de la organización en terceras partes. Se confía en la diligencia y buenas prácticas de la otra organización.

Esta estrategia también lleva asociada una imposibilidad de realizar pruebas controladas para verificar los procedimientos que componen el plan de continuidad de negocio: al tener que trasladar equipos del entorno de producción, probar el PCN implica interrupción del servicio en el CPD principal. Una vez levantados los servicios en el DRS, se estará dando servicio, no son pruebas controladas (a no ser que se consideren como tales y luego se deseche la información producida).

Lo que era una ventaja al trasladar los equipos de producción, puede transformarse en un problema logístico dependiendo de la hora del incidente y el tamaño de los equipos: si el incidente que implica moverse al DRS es, por ejemplo el peor caso, en fin de semana y por la noche, el RTO definido debe tener en cuenta los tiempos asociados a la compañía de transporte y el personal que se necesita. Por ejemplo, un servidor frontend se traslada rápido, una cabina de almacenamiento puede ser más difícil.

De la misma manera que el inconveniente anterior, hay que hacer un estudio previo que las instalaciones prestadas cumplan todos los requisitos de los equipos de producción que se moverán (requerimientos eléctricos, topología de rack, peso máximo soportado por el suelo, pasillos de acceso libres, etc).

Para servicios publicados en Internet, teniendo en cuenta que la organización prestadora querrá seguir utilizando su direccionamiento público, es necesario realizar cambios asociados al DNS, y éstos deben propagarse hasta los clientes: si se utilizan las comunicaciones de Internet de otra organización, habrá que cambiar la ip pública de los servicios de Internet, lo que implica cambios de configuración en los DNS desde el punto de vista interno (configuración de los equipos y configuración de los servidores DNS públicos si se tienen) y/o externos (gestor de dominios).
Los cambios deben propagarse a los clientes, es decir, que todos los clientes se den cuenta de las nuevas ips públicas de los servicios de la organización.

Debe incluirse en el acuerdo de instalaciones la reserva de las ips públicas para los servicios esenciales que se muevan al DRS.

Aunque se hayan publicitado previamente las ips de respaldo, es de esperar que haya clientes que no las tengan correctamente configuradas (desconocimiento, bloqueo de firewalls, etc).

También hay que tener en cuenta los problemas asociados con la vuelta a la operación desde el centro de respaldo. Así, mientras se esté operando en el centro de respaldo, los activos no se pueden devolver al sitio principal, por lo que volverá a haber indisponibilidad de servicio mientras se vuelve al centro principal. Además, estos activos esenciales no habrán participado en las pruebas de verificación y recuperación del centro principal, por lo que vuelve a introducirse un riesgo e incertidumbre que se reflejará en un mayor tiempo de recuperación.

Esta estrategia también lleva asociada una menor eficiencia referida al personal de la organización, lo que puede traducirse en una menor eficiencia operacional: todo el personal que se traslade a la otra organización no estará acostumbrado a operar y resolver los problemas desde el nuevo sitio, por lo que al final los procesos normales se retrasarán.

De la misma forma, si el acuerdo no incluye la organización de jornadas de “comunicación”, la comunicación real entre las personas de las dos organizaciones será un problema, por ejemplo, que los técnicos encargados de levantar el sitio de emergencia no conozcan a las personas responsables de guiarles en las instalaciones de respaldo.

También es fácil que se dé un conflicto de intereses entre las dos organizaciones que puede no estar recogido en el acuerdo. Por ejemplo, que la organización visitante ocupe demasiado ancho de banda y los procesos de la organización prestadora se vean afectados.

De la mima forma, la organización prestadora no sólo puede ver afectados sus procesos desde el punto de vista técnico, sino también desde el punto de vista de personal, ya que habrá tendrá que asignar recursos humanos a atender a la organización visitante.

Finalmente, y como conclusión, un posible un paso intermedio entre esta modalidad y el cold site, sería disponer de un centro de respaldo propio con las instalaciones básicas en un centro independiente, para eliminar la dependencia con una tercera empresa. El principal impacto sería en lo económico al tener que contratar la segunda ubicación

Estrategia Cold Site

Segunda ubicación, identificada y contratada previamente, para que en caso de necesidad la organización pueda desplazar a ella la ejecución de algunos o todos los procesos. Esta segunda ubicación contendrá únicamente las instalaciones básicas. Si se opta por una solución de cold site, se deberá tener en cuenta que comporta la adquisición de los nuevos equipos y su configuración, el traslado de la información (y del personal, si es el caso) como pasos previos a levantar el servicio y trabajar con los nuevos equipos en la nueva ubicación.

Para realizar el estudio, consideramos como definición de coldsite la anterior, es decir, que se dispone de las instalaciones básicas y que se utilizan equipos nuevos, nunca los equipos del sitio principal.

Ventajas

Desde el punto de vista económico, el gasto mensual es sólo el de mantenimiento de las instalaciones básicas.

Al tratarse de equipos nuevos, no habrán sufrido ninguna degradación asociada al incidente que haya requerido operar desde el sitio de respaldo
No existe una dependencia con terceros y los problemas asociados comentados en la estrategia anterior.

En cuanto a servicios publicados en Internet, es más fácil contratar una línea de comunicaciones permanente en el sitio de respaldo y publicitar y probar el acceso de los clientes a las ips de respaldo. Incluso se puede contratar con el IPS que se opere con las direcciones ip habituales desde el sitio de emergencia.
La vuelta al sitio principal es más eficiente que en la anterior estrategia. El tiempo de parada es igual al tiempo que se tarda en parar el sitio principal más el tiempo que se tarda en arrancar el sitio principal. Incluso se podrían hacer en paralelo muchos de los procesos y estar definido el tiempo de indisponibilidad solamente como el tiempo en que se tarda en mover los datos/activos de información.

Además, para preparar la vuelta al sitio principal, este modelo permite hacer pruebas y verificaciones en el sitio principal mientras se opera en el sitio de respaldo.

Adicionalmente, si estamos en un contexto en que los datos no son necesarios o se puede generar datos desde cero, se reduce el tiempo de parada ya que no hay que preocuparse de cómo se para el sitio de respaldo, sólo hay que preocuparse cómo se levanta el sitio principal. Por tanto, esta estrategia podría ser adecuada en entornos donde los activos de información no son necesarios migrar al sitio de respaldo.

Inconvenientes

Desde el punto de vista económico, cuando se necesite y haya que comprar nuevo equipamiento, el desembolso de una sola vez puede ser importante y la cantidad debe estar disponible y ser asumible por la organización.

La adquisición de nuevos equipos implica tiempos de envío, que deberán sumarse a la definición del RTO y el RPO.

Además puede haber problemas con la disponibilidad de los nuevos equipos, desde que el equipo que se necesite no esté en stock en ningún vendedor hasta que directamente ya no se fabrique y esté indisponible. En este caso habría que buscar alternativas que deberían haber sido ya evaluadas en el plan de continuidad de negocio.

Por tanto, si se sigue esta estrategia, el plan de continuidad de negocio debe tener información actualizada de qué equipos se comprarían y dónde.
Todos los equipos nuevos hay que configurarlos, por lo que ese tiempo también aumenta el RTO y el RPO.

Esta estrategia también puede considerarse dependiente del incidente en cuanto a la degradación de activos de información: si los datos hay que moverlos al sitio de respaldo se llevarán su degradación producida por el incidente. Si los datos no son necesarios y se puede operar con datos nuevos o desde cero, entonces esta estrategia no es dependiente del impacto de los activos en el sitio principal.

Otro inconveniente a tener en cuenta es la imposibilidad de realizar pruebas controladas. Ya que no se disponen de equipos hasta el incidente, no se pueden probar. Por tanto, el plan de continuidad sólo definirá estimaciones, ningún parámetro podrá ser probado y documentado.

Lo mismo ocurre con los procedimientos definidos en el plan de continuidad de negocio: estarán definidos para el equipamiento del sitio principal, y habrá que modificarlos en tiempo real para el sitio de respaldo.

Además se introduce un nuevo componente tras la vuelta al sitio principal: ¿Qué se hace con los nuevos equipos adquiridos? ¿Cómo se amortizan? Por tanto hay que decidir si después del incidente la organización opta por un modelo de warm site.

Estrategia Warm Site

Segunda ubicación, identificada y contratada previamente, y de los equipos (al menos de parte de ellos) considerados como los más importantes para la realización de este proceso. Además, los equipos de que se disponga en esta segunda ubicación deberán estar parcialmente configurados para que en el momento de la contingencia no se tenga que partir de cero. Los warm sites están destinados, principalmente, a la recuperación de procesos que pueden estar un tiempo, generalmente breve, inactivos.

Ventajas

Respecto a las estrategias anteriores, el warmsite introduce un elemento fundamental: poder realizar pruebas controladas en el sitio de respaldo.

Al estar disponible permanentemente, el plan de continuidad de negocio podrá incluir pruebas programadas, que además servirán para actualizar y refinar las configuraciones.

Además, todos los procesos y procedimientos del plan de continuidad de negocio podrán ser probados y la documentación hará referencia a los equipos que se utilizarán en un caso real.

Los aspectos anteriores hacen que se reduzca considerablemente el RTO. Además de pruebas internas que sirvan de entrenamiento al personal de la organización, y al disponer normalmente de comunicaciones propias, también se pueden organizar pruebas donde participen los clientes, lo que mejorará la operativa cuando se opere en real en el sitio de respaldo en situación de emergencia.

Por tanto, un warmsite da la posibilidad no sólo de probar los aspectos técnicos, sino también de probar los procesos de negocio de la organización en caso de incidente
Desde el punto de vista económico, se trata de una estrategia más económica que la estrategia hotsite. La principal diferencia entre los dos es el tratamiento de los datos: si se dispone de un centro warmsite habrá que hacer un volcado de datos ya sea del último backup o de lo que se recupere del centro principal, mientras que en un centro hotsite habrá que levantar la copia remota de los datos.

Al disponer de equipos propios instalados en el centro de respaldo, estos no se habrán visto degradados por el incidente del sitio principal, por lo que la confianza de poder operar en emergencia cuando se produzcan ciertos incidentes de impacto importante será mayor. La única degradación que puede afectar es, otra vez, la relativa a los datos, lo que marcará el RPO.

En cuanto a la vuelta al centro de respaldo, también permite las pruebas de restauración en el sitio principal mientras se opera desde el centro de respaldo.

Inconvenientes

Frente a las estrategias anteriores, el impacto económico es mayor y empieza a ser importante, ya que un warmsite incluye gastos mensuales y la compra, mantenimiento y renovación de equipos en paralelo a los del sitio principal.

Desde el punto de vista técnico, como ya se ha comentado, el principal problema es que el RPO lo marca la degradación de los datos. Habrá incidencias que impidan hacer una copia en tiempo real de los datos necesarios para operar en real ya sea porque no es posible debido a la degradación o porque el tiempo de realizar la copia y la restauración es demasiado alto, por lo que en esos casos habrá que utilizar la última copia de seguridad disponible.

De la misma manera, el RTO vendrá en muchas veces marcado por el tiempo de restauración de la copia de respaldo.

Desde el punto de vista de procedimientos y procesos, el plan de continuidad de negocio tiene que ser continuamente actualizado con la información de las últimas pruebas, lo que supone gasto de recursos humanos y de tiempo
Cualquier cambio de funcionalidad en el sitio principal implica un proceso de evaluación de cómo afectará al sitio de respaldo y cómo debe funcionar en el sitio de respaldo, lo que implica desarrollos más largos y complejos, en definitiva, más costosos.
Así, las puestas en producción de nuevas versiones de aplicativo y, en definitiva, cualquier cambio de configuración en el sitio principal, tiene que ser replicados en el sitio de respaldo, y, mientras no se realicen nuevas pruebas para verificar los cambios en el sitio de respaldo, habrá un periodo de incertidumbre de si el warmsite está correctamente configurado, lo que se traduce en un aumento del RTO en caso de incidente.

Estrategia Hot Suite

Esta estrategia es, desde el punto de vista de la seguridad, la mejor de todas al minimiza el tiempo de inactividad de un proceso pero, a su vez, es la que requiere una mayor inversión. Comporta disponer de todos los equipos actualizados y configurados para poder utilizarlos de forma automática o en pocas horas. También necesitará disponer de personal con conocimientos y documentación ajustada y que refleje la situación real de la organización. Por su elevado coste, esta estrategia está destinada a procesos muy críticos que no pueden estar inactivos mucho tiempo, por lo que, generalmente, no se puede realizar el volcado de la información en el momento de la contingencia. En este sentido, se puede optar por uno de los dos sistemas siguientes:

  • Volcado sincronizado: cualquier modificación que se realice en la información que se utiliza en producción se lleva a cabo de forma instantánea en el segundo centro, con lo que ello comporta en cuanto al ancho de banda y los equipos necesarios.
  • Volcado asíncrono: los centros se configuran para que de forma periódica, y como mucho a lo largo de 24 horas, se realice un volcado total de la información en producción al centro alternativo. De esta forma, en caso de desastre, se dispondrá de la información de como máximo hace un día, y en muchas organizaciones es suficiente para poder levantar el proceso.

Ventajas

Disponer de un hotsite resuelve la gran amenaza sobre una organización: la degradación de los activos de información en forma de datos.
Ya sea mediante copia síncrona o copia asíncrona, el sitio de respaldo dispone de una copia de los datos que lo normal es que sea completamente operativa en caso que se necesite. De esta manera, el RPO vendrá marcado por el procedimiento de copia.

El plan de continuidad de negocio debe incluir todos los procedimientos y procesos para que los servicios esenciales se operen y den servicio desde el centro de respaldo y con los datos fijados en el RPO. Por tanto, como ya dispone de una copia de los datos, el RTO será el más bajo de todas las estrategias y también el de menor RPO.

También permite la realización de pruebas internas y pruebas con clientes, pero añade dos nuevos aspectos claves:

  • Por un lado la funcionalidad de flashcopy: Las cabinas de almacenamiento actuales permiten realizar copias de los datos sin parar la sincronización de los sitios y que están disponibles en el momento sin necesidad de completar la copia. De esta manera se pueden hacer pruebas sin tener que esperar a completar los procesos de restauración o copia, y sin parar la sincronización de los sitios y desechando el flashcopy utilizado al finalizar las pruebas.
  • Por otro lado, el plan de continuidad de negocio puede incluir operación en real desde el sitio de respaldo de forma controlada. Así, se puede planificar la operación en real desde el sitio de respaldo con la participación de los clientes y que sirva como entrenamiento a todas las partes interesadas.

En cuanto a la vuelta al sitio principal, también permite pruebas de recuperación del sitio principal, y además el RPO y RTO de vuelta es menor: simplemente hay que dar la vuelta al sentido de la copia de los datos .

Inconvenientes

Desde el punto de vista económico, es la estrategia más cara porque hay que disponer de un sistema de copia síncrona o asíncrona de los datos entre sitios, además de todos los equipos críticos que también habrá que actualizarlos en paralelo a los equipos de producción. Se puede utilizar la estrategia de llevar los equipos antiguos al centro de respaldo cuando se renuevan los del sitio principal, pero como suele tratarse de servicios críticos para la organización, lo normal es que se renueven todos los equipos a la vez. Además, los sistemas de copia entre sitio suelen requerir equipos de similares generaciones y capacidades, luego el gasto aumenta.

Igual que en el warmsite, también hay que tener en cuenta el sitio de respaldo para todos los cambios de configuración, y la necesidad de probar y verificar dichos cambios en el sitio de respaldo es todavía más crítica.

El trabajo de mantener actualizado un hotsite es importante en cuanto a dedicación de recursos humanos y de tiempo y todo el equipo de TI debe ser consciente de la necesidad de mantener el hotsite actualizado. Además toda la organización debe ser consciente de la necesidad de mantener y probar el sitio de respaldo.
Debido a que la tecnología es más compleja, el personal de la organización requiere mayor cualificación técnica, lo que traduce en mayor dedicación y mayor gasto. Es muy habitual que el tratamiento de la copia remota se contrate su gestión a terceros especializados, lo que implica más gastos.

Además es muy dependiente de la rotación de los empleados: hay que dedicar formación específica a los nuevos empleados y se perderá experiencia en el centro de respaldo con las salidas de los empleados.

El plan de continuidad de negocio debe incluir pruebas periódicas en el centro de respaldo, e incluso operación en real controlada porque si no el centro de respaldo corre el peligro de acabar desactualizado lo que implica un mayor tiempo de recuperación del servicio una vez que haya producido el incidente.

Las pruebas y la operación en real controlada también introducen varios riesgos que han de ser tenidos en cuenta:

  • Un error en las pruebas puede afectar al sitio principal, por ejemplo que se cambie el sentido de la copia por error. Se trataría de una situación crítica: se sobrescribirían datos de real con datos no válidos. Es por esta razón, entre otras, que la copia entre sitios no sustituye a las salvaguardas tradicionales de copias de seguridad.
  • La operación en real puede ser no satisfactoria al disponer de menos recursos que en el sitio principal. Además, es normal que siempre se produzcan situaciones no previstas. Aun así, debe considerarse como un buen entrenamiento y servirá para actualizar y perfeccionar todos los procedimientos y procesos definidos en el plan de negocio.

Evolución del site : Sitio Activo-Activo

La evolución natural de un hotsite es un sitio ACTIVO-ACTIVO.

Con esta estrategia, la organización dispondrá de dos o más sitios y prestará sus servicios de forma distribuida. No se distingue entre sitio principal y de respaldo, el cliente no sabrá que a qué sitio se está conectando, sólo que se le está prestando un servicio.

Esta modalidad queda reservada a procesos muy críticos donde se considera que no puede haber cortes de servicio y el RTO es prácticamente cero. De igual manera, el RPO es cercano a cero, ya que se considera que no se puede perder ninguna información.

Por ejemplo, estos requerimientos pueden aplicarse a la banca, que deben tener siempre sus servicios activos y no se pueden perder transacciones ya realizadas
El principal inconveniente de estos sistemas es el económico, no sólo porque los sitios serán clones completos unos de otros, sino porque los productos tecnológicos, sobre todo el software, que soportan esta funcionalidad tienen un alto precio.

El segundo gran inconveniente es la complejidad técnica, lo que se traduce que la gestión y mantenimiento la lleven especialistas muy cercanos a los fabricantes, lo que se traduce en mayor gasto.

También es importante el cambio de filosofía que implica en todos los niveles del negocio, lo que aumenta la complejidad de su implantación.

Aun así, debido a la cada vez mayor dependencia tecnológica de las organizaciones, la tendencia de los próximos años es que muchas organizaciones adopten este modelo.





Original: https://ciberseguridad.blog/estrategias-de-recuperacion-para-un-plan-de-continuidad-del-negocio/
Por: Juan Pablo Lamela Pascua
Publicado: 12.3.2018 @ 19:46