Chapter 5: Replication: Library — Zhiheng Lin's Second Brain

Designing Data-intensive Applications Ch05

8th May 2021 at 11:06am

📝 原书笔记：

电脑上如果 PDF 不展示或者展示不正常，使用 Chrome 并安装 PDF Viewer 插件。其他情况请下载文件查看：chapter-05.pdf。

重点内容：

为什么要复制数据？
- 离用户更近，提升可用性，支持更多请求量
复制数据时，采用同步还是异步？
三种复制模式：
- 单 leader（主从复制）
  - 如何加入新的 follower
  - 如何处理节点故障
  - 同步日志的实现方式：statement-based, row-based, WAL shipping, trigger-based
  - 主从不一致（同步时的延迟导致）引起的问题
    - 读不到自己刚发的数据
    - 先读到多条数据，刷新时数据变少了（回到以前某个状态）
- 多 leader
  - 多组 leader + follower。组内延用单 leader 的模式，组之间通过各 leader 互为 follower 同步数据
  - 相对单 leader 提升了可用性；不主流；可用于多 datacenter
  - 可以离线编辑的应用（如日历、Google Docs），可以当作多 leader 模式，本地和 server 端的数据分别是两个 leader
  - 难以解决数据冲突问题（但书中给了一些方法）
- Leaderless
  - 特点：
    - 允许客户端向任意节点写入数据。不保证多条消息的写入顺序在各节点一致
      - 实现上：有些是客户端需要写多个节点；有些是客户端写到一个协调节点（coordinator node），再由这个节点向其他节点写入
    - 可用性非常高，允许一部分节点挂掉
  - Quorums consistency: w + r > n，即读取的节点数与写入的节点数应该有重叠。但这仍不能保证总是读到最新的数据
  - 检测冲突的内容中，happens-before 及后面的内容我没有看了，有需要了解时找一个现成产品看看