首页 > 服务器管理与架构 Raft协议原理详解 2022-11-21 14:40:25

Raft是一种用于替代Paxos的共识算法。相比于Paxos, Raft的目标是提供更清晰的逻辑分工使得算法本身能被更好地理解, 同时它安全性更高, 并能提供一些额外的特性。Raft能为在计算机集群之间部署有限状态机提供一种通用方法, 并确保集群内的任意节点在某种状态转换上保持一致。Raft算法的开源实现众多, 在Go、C++、Java以及 Scala中都有完整的代码实现。Raft这一名字来源于"Reliable, Replicated, Redundant, And Fault-Tolerant"(“可靠、可复制、可冗余、可容错”)的首字母缩写。

1. 复制状态机(replicated state machine)

一个分布式的复制状态机系统由多个复制单元组成, 每个复制单元均是一个状态机, 它的状态保存在一组状态变量中, 状态机的变量只能通过外部命令来改变。简单理解的话, 可以想象成是一组服务器, 每个服务器是一个状态机, 服务器的运行状态只能通过一行行的命令来改变。每一个状态机存储一个包含一系列指令的日志, 严格按照顺序逐条执行日志中的指令, 如果所有的状态机都能按照相同的日志执行指令, 那么它们最终将达到相同的状态。因此, 在复制状态机模型下, 只要保证了操作日志的一致性, 我们就能保证该分布式系统状态的一致性。

在上图中, 服务器中的一致性模块接受来自客户端的指令, 并写入到自己的日志中, 然后通过一致性模块和其他服务器交互, 确保每一条日志都能以相同顺序写入到其他服务器的日志中, 即便服务器宕机了一段时间。一旦日志命令都被正确的复制, 每一台服务器就会顺序的处理命令, 并向客户端返回结果。

为了让一致性协议变得简单可理解, Raft协议主要使用了两种策略:

一是将复杂问题进行分解, 在Raft协议中, 一致性问题被分解为: leader election、log replication、safety三个简单问题
二是减少状态空间中的状态数目。

下面我们详细看一下Raft协议是怎样设计的。

2. Raft一致性算法

在Raft体系中, 有一个强leader, 由它全权负责接收客户端的请求命令, 并将命令作为日志条目复制给其他服务器, 在确认安全的时候, 将日志命令提交执行。当leader故障时, 会选举产生一个新的leader。在强leader的帮助下, Raft将一致性问题分解为了三个子问题:

leader选举: 当已有的leader故障时必须选出一个新的leader。
日志复制: leader接受来自客户端的命令, 记录为日志, 并复制给集群中的其他服务器, 并强制其他节点的日志与leader保持一致。
安全safety措施: 通过一些措施确保系统的安全性, 如确保所有状态机按照相同顺序执行相同命令的措施。

2.1 基本概念

一个Raft集群拥有多个服务器, 典型值是5, 这样可以容忍两台服务器出现故障。服务器可能会处于如下三种角色: leader、candidate、follower, 正常运行的情况下, 会有一个leader, 其他全为follower, follower只会响应leader和candidate的请求, 而客户端的请求则全部由leader处理, 即使有客户端请求了一个follower也会将请求重定向到leader。candidate代表候选人, 出现在选举leader阶段, 选举成功后candidate将会成为新的leader。可能出现的状态转换关系如下图:

从状态转换关系图中可以看出, 集群刚启动时, 所有节点都是follower, 之后在time out信号的驱使下, follower会转变成candidate去拉取选票, 获得大多数选票后就会成为leader, 这时候如果其他候选人发现了新的leader已经诞生, 就会自动转变为follower; 而如果另一个time out信号发出时, 还没有选举出leader, 将会重新开始一次新的选举。可见, time out信号是促使角色转换得关键因素, 类似于操作系统中得中断信号。

在Raft协议中, 将时间分成了一些任意长度的时间片, 称为term, term使用连续递增的编号的进行识别, 如下图所示:
term

每一个term都从新的选举开始, candidate们会努力争取称为leader。一旦获胜, 它就会在剩余的term时间内保持leader状态, 在某些情况下(如term3)选票可能被多个candidate瓜分, 形不成多数派, 因此term可能直至结束都没有leader, 下一个term很快就会到来重新发起选举。

term也起到了系统中逻辑时钟的作用, 每一个server都存储了当前term编号, 在server之间进行交流的时候就会带有该编号, 如果一个server的编号小于另一个的, 那么它会将自己的编号更新为较大的那一个; 如果leader或者candidate发现自己的编号不是最新的了, 就会自动转变为follower; 如果接收到的请求的term编号小于自己的当前term将会拒绝执行。

server之间的交流是通过RPC进行的。只需要实现两种RPC就能构建一个基本的Raft集群:

RequestVote RPC: 它由选举过程中的candidate发起, 用于拉取选票
AppendEntries RPC: 它由leader发起, 用于复制日志或者发送心跳信号。

它们的定义如下图所示:
RequestVote RPC
AppendEntries RPC

2.2 leader选举过程

Raft通过心跳机制发起leader选举。节点都是从follower状态开始的, 如果收到了来自leader或candidate的RPC, 那它就保持follower状态, 避免争抢成为candidate。Leader会发送空的AppendEntries RPC作为心跳信号来确立自己的地位, 如果follower一段时间(election timeout)没有收到心跳, 它就会认为leader已经挂了, 发起新的一轮选举。

选举发起后, 一个follower会增加自己的当前term编号并转变为candidate。它会首先投自己一票, 然后向其他所有节点并行发起RequestVote RPC, 之后candidate状态将可能发生如下三种变化:

赢得选举,成为leader
如果它在一个term内收到了大多数的选票, 将会在接下的剩余term时间内称为leader, 然后就可以通过发送心跳确立自己的地位。(每一个server在一个term内只能投一张选票, 并且按照先到先得的原则投出)
其他server成为leader
在等待投票时, 可能会收到其他server发出AppendEntries RPC心跳信号, 说明其他leader已经产生了。这时通过比较自己的term编号和RPC过来的term编号, 如果比对方大, 说明leader的term过期了, 就会拒绝该RPC,并继续保持候选人身份; 如果对方编号不比自己小,则承认对方的地位,转为follower.
选票被瓜分,选举失败
如果没有candidate获取大多数选票, 则没有leader产生, candidate们等待超时后发起另一轮选举. 为了防止下一次选票还被瓜分,必须采取一些额外的措施, raft采用随机election timeout的机制防止选票被持续瓜分。通过将timeout随机设为一段区间上的某个值, 因此很大概率会有某个candidate率先超时然后赢得大部分选票.

2.3 日志复制过程

一旦leader被选举成功, 就可以对客户端提供服务了。客户端提交每一条命令都会被按顺序记录到leader的日志中, 每一条命令都包含term编号和顺序索引, 然后向其他节点并行发送AppendEntries RPC用以复制命令(如果命令丢失会不断重发), 当复制成功也就是大多数节点成功复制后, leader就会提交命令, 即执行该命令并且将执行结果返回客户端, raft保证已经提交的命令最终也会被其他节点成功执行。leader会保存有当前已经提交的最高日志编号。顺序性确保了相同日志索引处的命令是相同的, 而且之前的命令也是相同的。当发送AppendEntries RPC时, 会包含leader上一条刚处理过的命令, 接收节点如果发现上一条命令不匹配, 就会拒绝执行。

在这个过程中可能会出现一种特殊故障: 如果leader崩溃了, 它所记录的日志没有完全被复制, 会造成日志不一致的情况, follower相比于当前的leader可能会丢失几条日志, 也可能会额外多出几条日志, 这种情况可能会持续几个term。如下图所示:

在上图中, 框内的数字是term编号, a、b丢失了一些命令, c、d多出来了一些命令, e、f既有丢失也有增多, 这些情况都有可能发生。比如f可能发生在这样的情况下: f节点在term2时是leader, 在此期间写入了几条命令, 然后在提交之前崩溃了, 在之后的term3中它很快重启并再次成为leader, 又写入了几条日志, 在提交之前又崩溃了, 等他苏醒过来时新的leader来了, 就形成了上图情形。在Raft中, leader通过强制follower复制自己的日志来解决上述日志不一致的情形, 那么冲突的日志将会被重写。为了让日志一致, 先找到最新的一致的那条日志(如f中索引为3的日志条目), 然后把follower之后的日志全部删除, leader再把自己在那之后的日志一股脑推送给follower, 这样就实现了一致。而寻找该条日志, 可以通过AppendEntries RPC, 该RPC中包含着下一次要执行的命令索引, 如果能和follower的当前索引对上, 那就执行, 否则拒绝, 然后leader将会逐次递减索引, 直到找到相同的那条日志。

然而这样也还是会有问题, 比如某个follower在leader提交时宕机了, 也就是少了几条命令, 然后它又经过选举成了新的leader, 这样它就会强制其他follower跟自己一样, 使得其他节点上刚刚提交的命令被删除, 导致客户端提交的一些命令被丢失了, 下面一节内容将会解决这个问题。Raft通过为选举过程添加一个限制条件, 解决了上面提出的问题, 该限制确保leader包含之前term已经提交过的所有命令。Raft通过投票过程确保只有拥有全部已提交日志的candidate能成为leader。由于candidate为了拉选票需要通过RequestVote RPC联系其他节点, 而之前提交的命令至少会存在于其中某一个节点上,因此只要candidate的日志至少和其他大部分节点的一样新就可以了, follower如果收到了不如自己新的candidate的RPC,就会将其丢弃.

还可能会出现另外一个问题, 如果命令已经被复制到了大部分节点上,但是还没来的及提交就崩溃了,这样后来的leader应该完成之前term未完成的提交. Raft通过让leader统计当前term内还未提交的命令已经被复制的数量是否半数以上, 然后进行提交.

一次正常的 Raft 日志的复制流程:

1. 客户端向 Leader 发送写请求
1. Leader 将写请求解析成操作指令追加到本地日志文件中
1. Leader 为每个 Follower 广播 AppendEntries RPC
1. Follower 通过一致性检查, 选择从哪个位置开始追加 Leader 的日志条目
1. 一旦日志项提交成功, Leader 就将该日志条目对应的指令应用(apply)到本地状态机, 并向客户端返回操作结果。
1. Leader 后续通过 AppendEntries RPC 将已经成功(在大多数节点上)提交的日志项告知 Follower
1. Follower 收到提交的日志项之后, 将其应用至本地状态机。

2.4 日志压缩

随着日志大小的增长, 会占用更多的内存空间, 处理起来也会耗费更多的时间, 对系统的可用性造成影响, 因此必须想办法压缩日志大小。Snapshotting是最简单的压缩方法, 系统的全部状态会写入一个snapshot保存起来, 然后丢弃截止到snapshot时间点之前的所有日志。Raft中的snapshot内容如下图所示:

每一个server都有自己的snapshot, 它只保存当前状态, 如上图中的当前状态为x=0,y=9, 而last included index和last included term代表snapshot之前最新的命令, 用于AppendEntries的状态检查。

虽然每一个server都保存有自己的snapshot, 但是当follower严重落后于leader时, leader需要把自己的snapshot发送给follower加快同步, 此时用到了一个新的RPC: InstallSnapshot RPC。follower收到snapshot时, 需要决定如何处理自己的日志, 如果收到的snapshot包含有更新的信息, 它将丢弃自己已有的日志, 按snapshot更新自己的状态, 如果snapshot包含的信息更少, 那么它会丢弃snapshot中的内容, 但是自己之后的内容会保存下来。RPC的定义如下:

到此为止, Raft协议的主要内容我们就介绍完了, 希望此文可以帮助大家理解Raft协议！

转载自: https://zhuanlan.zhihu.com/p/91288179, 作者: 牛吃草

Iawen's Blog

风无形，水无势，互联网没有昼夜。趁这稍许的闲暇时光，随手采摘或记录着这知识海洋的点点滴滴......

笔记导航

最新笔记

目录