设计一个分布式定时任务系统

January 27, 2022

架构, 分布式

需求和背景分析#

一提到定时任务的使用场景，我们肯定能想到很多场景，比如：

每天晚上12点执行一次清理数据的任务
每天凌晨1点给符合条件的用户发送推广邮件
每个月10号结算工资
每隔5分钟检查一次服务器的状态
每天根据用户的配置，给用户发送站内消息提醒
…

从常见的场景中，我们可以提炼出一些定时任务的特点：

序号	特点	说明
1	定时	执行时间有规则
2	可靠	可以延迟执行，但不能不执行；可以不执行，但是不能多执行
3	并发（可能）	某些场景下，可以运行多个 cron 进程来提高执行效率
4	可执行	这个有点废话了，但是这个关系到 cronjob 的设计，因此在这里还是提出来

但是作为一个系统来说，我们需要更多的功能来提升用户体验，保证平台的可靠和稳定。我们设想下以下的场景：

定时任务已经触发了，但是有没有执行，执行结果是什么？
如果一个定时任务长时间运行，那么它正常吗？
一个定时任务还在运行，但是下一个触发时机又到来了，该怎么办？
如果服务器资源已经处于高位，那么要被触发的任务还触发吗？
…

最后，基本的访问控制，权限分配和API设计，这些都是系统功能的一部分，但不作为本文的重点考虑对象。

一些概念#

到这里我们可以提取一些概念，来帮助我们设计一个系统：

序号	名词	解释
1	CronJob	定时任务实例，描述定时任务资源的一个实体
2	Job	执行中的定时任务
3	Scheduler	调度器，负责触发 CronJob 执行和监控 Job 的执行状态；或许还会存储一些 CronJob 的状态
4	JobRuntime	job 运行时，准备 Job 运行时需要的资源; 可以参考 k8s CRI

这里 JobRuntime 是抽象化的概念，因为 Job 可以是k8s上的POD，也可以是物理机的进程，还可以是一个进程中的coroutine。

这几个概念的关联关系如图：

总结: 把定时任务平台分为了运行前和运行中两个阶段，通过调度器居中协调，达到两个目的：

Scheduler 不负责 CronJob 的运行，减轻 Scheduler 的职责。
JobRuntime 抽象化并独立设计，方便扩展。

关键点#

再总结一下设计过程中的关键点，如下图。

可以先忽略分布式相关的要点（large scale, reliable），先重点看下功能性的要点。

CronJob Track「定时任务跟踪」

感知 CronJob 的状态，并记录状态变化的历史记录，用于辅助 scheduler 实现一些策略调度。同时也能提供一些 CronJob 的运行数据，帮助用户调试和了解 CronJob 的健康状况。
Idempotent「幂等保证」

某些定时任务对执行次数是有要求的，作为提供服务的平台来说，需要尽最大努力保证任务执行。因此提出一些 “幂等级别” 供不同的定时任务使用。
- 只执行一次。一个 “CronJob” 一定会触发一次，但是这个比较难保证。
- 最多一次。可以不触发，但是不能触发多次。
- 可以重复执行。可以触发多次。
Realtime「实时性」

CronJob 对于执行的时机也有要求，如果 CronJob 要求1分钟内执行完毕，如果1分钟后再运行会导致时效性的问题，那么平台也应该考虑相关的设计。
Fault Tolerance「容错设计」

CronJob 可能会因为一些外部因素 “执行失败” 或者 “超时”，这时候需要提供一些容错机制，比如：失败重试，超时关闭。
Cocurrency「并发控制」

好比于，k8s 中 Deployment 作为一个无状态服务，可以运行多个副本以提高效率；但是相对的，Statefule Set 作为有状态的应用，POD不能随意的扩容，所以需要提供一些并发控制机制，严格的限制 CronJob 的并发数量。
Pre-Allocated「预分配」

同样的，某些 CronJob 的优先级比较高，要保证这些任务一直稳定运行。那么需要提供一些预分配机制，可以避免再系统资源处于高位的时候，这些 CronJob 还能继续被调度运行。

总结： 这些要点体现在设计上就是，Schuduler 对 CronJob 的调度控制，来自于 CronJob 的配置和运行状态。CronJob Configuration 包含一些辅助调度控制的配置，如：

{
    // ...
    "concurrency": 1, // 1 表示这个 CronJob 只能有一个运行中的 Job 实例。
    "preAllocated": true, // true 表示这个 CronJob 可以被预分配，这样可以避免系统资源被占满，导致这个 CronJob 无法调度。
    "idempotent": "onceMost", // [onceOnly, onceMost, unlimit]
    "faultTolerance": {
        "maxStartupRetries": 3, // 最大启动失败重试次数
        "maxFailureRetries": 3, // 最大执行失败重试次数
        "maxFailureRetriesSeconds": "60s", // 最大执行失败重试间隔
        "activeDeadlineSeconds": "120s", // 最大执行时间，超过这个时间就会被认为是失败
    }, // 容错配置
    // ... 
    "resourceLimit": {
        "cpu": "0.1", // CPU 限制
        "memory": "128Mi", // 内存限制
    }, // 资源限制
}

向分布式演进#

到目前为止，这个定时任务系统的功能已经差不多了，那么是不是意味着这样的设计已经满足需求了？当然没有，比如：

单个服务器要承担交互、调度、执行的压力，那么它能承载的定时任务数量势必会被限制。
同样，如果这一台机器出现问题，那么不是就导致所有的定时任务都无法正常运行，影响整个系统的运行。
同样，如果我们需求的是一个 PasS 平台，单机不可能邻近所有的用户，那么用户请求就很可能经过一些低俗和拥堵的网络链路。
…

简单的说就是单点问题～，因此我们需要 分布式 设计。

那么怎么把它演进成一个分布式系统呢？

首先应用 CAP 理论，我们可以先确认这个系统应该是 CP 还是 AP 系统呢？对于定时任务系统，高可用不是最重要的，反而是可靠性非常重要。那么可靠性是怎么体现的呢？

定时任务不会因为某些节点宕机而不执行
强调了最多运行一次，也不会被反复调度执行
因为系统异常而未被执行，可以被重新调度执行
…

因此，我们不需要这个系统有非常高的可用性，偶尔不可用是可以接受的（这是由定时任务的性质决定的）。

对一致性的思考#

思考下，这里是否需要一致性？如果需要，那么是强一致还是最终一致呢？按照我目前的理解，分布式分为两种（无状态和有状态），针对有状态的服务，可能需要强一致性，也可能最终一致就能满足服务正常运行的需求了。

这里我们分为几个问题来一步步理解：

分布式设计之后，对定时任务系统带来的问题是什么？
- 按照我们上面的抽象，怎么确定由哪个节点来承担 scheduler 的职责？– 选主算法
- 如果 scheduler 宕机，应该由谁来接替它的工作？– 选主算法
- 接替者如何“正确的继续”（崩溃时，被调度未结束的和调度中的任务如何处理）？– 集群状态
- 如果集群整体崩溃，那么下次集群重启时，如何弥补宕机期间的任务执行？– 集群状态
分布式集群有哪些状态？
- 任务队列（调度器）
- 调度中/执行中的任务（调度器）
- 集群中节点清单和节点状态
- 集群时间/上一次调度时间戳（调度器）
- … 等等跟运行相关的数据

通过上面的QA，再来思考下分布式定时任务平台对于一致性的要求。如果你把整个系统的状态或者日志，放在外部的存储系统中，那么对于定时任务平台也没有特别的一致性要求，因为已经由外部存储系统来维护了。但是如果是保持在系统内部，那么就有要求了，如果说系统中各个节点对于集群的状态存储不一致，那么一旦执行调度任务的节点宕机，其他节点执行调度时上，这样就会导致定时任务的调度出现不一致，这就是一致性的问题。

按照我们的分析，设计的分布式定时任务系统算是一个 CP 系统。因此在设计的时候（暂定为集群内部维护状态），我们通过引入一致性协议来解决一致性问题。如果你学习过分布式理论，亦或者学习过一些分布式软件，如 k8s / etcd / consul 等等，就应该知道 Raft 和 Paxos 这两个一致性协议。

Raft 或者 Paxos 是通过 Leader-Follower 的方式来实现强一致性，那么我们引入 Raft 之后就有如下的架构：

至此，整个分布式定时任务的框架已经成型，我们可以开始设计定时任务的调度器了。

定时任务的调度器#

思考下，调度器的职责是什么？

调度器的职责说简单点就是，在确定在什么时间在哪个节点上运行某个定时任务。时间根据cron规则和cron任务配置的策略来确定，而节点是由调度器根据每个节点的资源负载同时配合cron任务配置的策略来确定。

但是，只是这样而已吗？别忘了现在已经是个分布式集群了，调度器是由leader节点来运行的。如果leadership发生变化，那么接替者还应该检查上一任正在处理的事情，并且把它接着做。举个例子：

A、B、C 三个节点，A作为第一任leader，A正在处理任务1且尚未分配到具体节点执行。这时A宕机了，B作为接替者，那么B成为leader后运行调度器，首先要做的是就是重建调度状态也就是集群状态，并根据集群状态来继续调度。那么怎么重建？

加载所有的定时任务，重建时间轮或者定时器。
检查 “运行中队列”
检查 “待调度队列”
检查 “重试队列”
其他数据加载（调度时间）

队列为空，当然是最简单的状况，复杂的就是队列不为空情况下怎么处理？运行中不为空，那么恢复结果同步协程；待调度不为空，那么根据调度算法和任务配置的策略来调度；重试队列不为空，那么根据调度算法和任务配置的策略来调度。

任务配置的策略，如不能并发；可以重试；最晚调度时间等等，都会参与调度算法。

用代码来描述的话，就是：

def schedule(self):
    if leadership_changed:
        # cluster first run or leadership changed
        self.start_cron_timer()
        self.rebuild_wait_scheduled_queue()
        self.rebuild_retry_queue()
        self.rebuild_running_queue()

    for True:
        job = self.get_from_wait_schduled_or_retry_queue()
        if job is None:
            backoff_delay()
            continue
        node_id = self.match_node(job)
        # build cronjob's RunContext, put it into running queue and 
        # start a coroutine to synchroize the cronjob's running result.
        self.schedule_to_node(node_id, job)

定时任务运行时#

任务运行时是为了方便抽象和扩展而来的一个概念，它的职责是接受Leader任务调度请求，运行定时任务并且同步运行结果。但运行时不一定是要集群内的服务器来担任，也可以是外部的系统，如：k8s, containerd, docker, etc，内部只需要把外部系统包装成符合运行时要求的资源即可。

这里，我们假定定时任务的资源类型为容器镜像，运行环境自然就是容器运行时。那么定时任务的运行时，就只需要包装一下k8s的API或者定义CRD即可。

type JobRuntime interface {
    // running job
    RunJobAsync(ctx context.Context, job *Job, resultCh chan<- *JobResult) (err error)
    // cancel job (timeout, etc)
    CancelJob(job *Job, reason Reason) (err error)
    // query job's status (running, success, failed, etc)
    QueryJobResult(job *Job) (result *JobResult, err error)
}

因为运行时也算一个无状态节点，所以也没有太多的设计要素。

Kubernetes CronJob#

如果对k8s稍微了解一点，肯定会好奇，为啥不直接使用k8s的cronjob来满足定时任务系统的使用场景呢？当然是可以的，只是这里的主要目的是从头梳理一个（分布式）定时任务系统的功能和设计。在一般场景下 k8s cronjob 已经能够满足使用了，只有个别场景不能直接支持：

预分配（优先保证重要的定时任务资源）
幂等保证（并发/幂等精细控制）
~~实时性（超时退出，过时不启动）~~ spec.startingDeadlineSeconds
异常告警

另外就是在使用上没有那么“方便”（运维可不一定会让开发直接接触k8s~）。

关于 CronJob 的详细控制可以参见 https://kubernetes.io/docs/reference/kubernetes-api/workload-resources/cron-job-v1/#CronJobSpec

个人以为，中小型公司没必要花费大精力去开发分分布式定时任务系统，只需要在k8s的 CronJob/Job 的基础上稍微包装一下自己的控制模块就能满足要求。

总结#

定时任务系统是最常用的服务之一，实现方式可大可小，也可以使用linux crontab 服务。本文在不依赖任何服务的前提下，来设计一个分布式定时任务系统，从功能到架构一一梳理。当然，文中提到的功能清单不一定全，只是站在我的角度看到的必要提及的通用功能。架构也不是一成不变的，可以根据自己的场景和目的来设计，只要达到目的即可。

水平有限，如有错误，欢迎勘误指正。