快速恢复

快速恢复

故障快速恢复的要求,即是当故障发生时,能够快速高效地去恢复系统服务。快速恢复的要求平台自身的高可用性、随时证明可恢复性、恢复结果可预期,并且高效率与低风险兼得。值得一提的是,故障恢复恢复,并不意味着所有的故障都要快速恢复,并不意味着所有的业务都要快速恢复。故障可以分为局部故障、全局故障,我们应该优先快速恢复局部故障。

针对快速恢复的要求,我们首先要在架构上支持快速恢复的能力:

  • 冗余:多机房冗余,避免雪崩效应,实现局部可恢复。
  • 封闭:服务调用应该尽可能封闭,譬如同城容灾的 RPC 调用同机房优先等。
  • 对等:双区域容灾需要保证资源对等部署,可承担故障区域的流量,多区域容灾则可忽略该规则。

在构建快速恢复平台的时候,我们应该提供丰富的恢复组件支持、灵活的可视化声明式编排、面向场景的恢复支持、架构支撑与灵活恢复的能力、执行流程的高可用。