Kubernetes: Internal: High Availability

 19th June 2021 at 12:54pm

k8s 的高可用性分为两部分:业务 pod 的高可用;控制面的高可用。

业务 pod 的高可用可以通过平行扩展等方式实现,这里不深入讨论。

控制面的高可用

etcd 设计上就是分布式的。

kube-api-server 基本是 stateless 的,可以随便部署很多实例。一般每个 master node 上都部署一个 etcd 和 kube-api-server 实例,kube-api-server 访问本机的 etcd。kube-api-server 前应该接 load balancer,给 Controller、scheduler、kubelet 等组件访问;如果某 kube-api-server 挂掉,load balancer 可以让请求不走过去。

Controller 和 scheduler 它们设计上是应该只有一个实例在起作用的。比如 ReplicaSet 的 controller 会负责生成 pod 对象,假如有两个 controller 同时运行,可能会生成两个重复的 pod 对象。因此 k8s 采用了 leader election 的模式,部署多个实例时会选出 leader,仅有 leader 在工作,其他实例等待 leader 挂掉时再选举出新 leader 起来工作。

Leader 选举

k8s 在实现 leader 选举上非常简单。甚至同个 controller 在做 leader 选举时,它们都不需要跟彼此通信。

以 kube-scheduler 为例,在没有 leader 时,多个实例会同时向 kube-apiserver 写入一个 endpoint 实例。由于 kube-apiserver 有乐观并发控制,因此只有一个实例会写成功:

图中 control-plane.alpha.kubernetes.io/leader 中的 holderIdentity 即表示了谁是 leader(即写入成功的实例)。成为 leader 后该实例需要定期更新此 Endpoint。如果过了时间还没写,其他实例会尝试成为 leader.