TODO: Resilience 是一个非常宽泛的话题,因此我还没有做完研究写完笔记。有时间了看下「参考」部分的材料,列举一些被认为符合 resilience 的措施(比如怎样隔离出错的机器?)和具体的做法。Ignore, Retry, Undo, Coordinate 又是怎么应用的?
Longman DOCE 这么解释 resilience:
- Resilience
- the ability to become strong, happy, or successful again after a difficult situation or event
Resilience 在中文中大约可以被翻译成「韧性」。在系统设计中你经常会看到这个词。在 Ines Sombra 的 slide 中将 resilience 定义为:
Resilience is the ability of a system to adapt or keep working when challenges occur.
这里的 challenge 包含很多方面:
- Fault-tolerance
- Evolvability
- Scalability
- Failure isolation
- Complexity management