Preface 章节里面,描述了这本书的时代背景:
- 数据量越来越大
- 开发过程越来越敏捷,要求有快速试错能力
- 开源程序在代替商业程序成为核心骨
- CPU 性能不再显著增加,导致并行计算越来越重要
- 因为 AWS 等服务存在,大型分布式服务的门槛越来越低
- 很多服务对可用性的要求越来越高
Data-intensive 与 compute-intensive 不一样,data-intensive 注重于解决这类场景:
- 数据量大
- 数据复杂
- 数据变化快
而 compute-intensive 注重于解决计算能力是瓶颈的地方。
与 data-intensive 应用有关的一些技术有:数据库、消息队列、缓存、search indexes、frameworks for batch and stream processing 等等。这些技术虽然快速发展,但是都有一些原则,来判断你的场景是否适合使用这些技术。这本书即是来阐述这些原则,并指导你使用这些系统搭建自己的 data system。