20th August 2020 at 2:19pm

TODO: Resilience 是一个非常宽泛的话题,因此我还没有做完研究写完笔记。有时间了看下「参考」部分的材料,列举一些被认为符合 resilience 的措施(比如怎样隔离出错的机器?)和具体的做法。Ignore, Retry, Undo, Coordinate 又是怎么应用的?

Longman DOCE 这么解释 resilience:

the ability to become strong, happy, or successful again after a difficult situation or event

Resilience 在中文中大约可以被翻译成「韧性」。在系统设计中你经常会看到这个词。在 Ines Sombra 的 slide 中将 resilience 定义为:

Resilience is the ability of a system to adapt or keep working when challenges occur.

这里的 challenge 包含很多方面:

  • Fault-tolerance
  • Evolvability
  • Scalability
  • Failure isolation
  • Complexity management