流计算引擎
流计算架构
TDengine 流计算的架构如下图所示。当用户输入用于创建流的 SQL 后,首先,该 SQL 将在客户端进行解析,并生成流计算执行所需的逻辑执行计划及其相关属性信息。其次,客户端将这些信息发送至 mnode。mnode 利用来自数据源(超级)表所在数据库的 vgroups 信息,将逻辑执行计划动态转换为物理执行计划,并进一步生成流任务的有向无环图(Directed Acyclic Graph,DAG)。最后,mnode 启动分布式事务,将任务分发至每个 vgroup,从而启动整个流计算流程。
mnode 包含与流计算相关的如下 4 个逻辑模块。
- 任务调度,负责将逻辑执行计划转化为物理执行计划,并下发到每 个 vnode。
- meta store,负责存储流计算任务的元数据信息以及流任务相应的 DAG 信息。
- 检查点调度,负责定期生成检查点(checkpoint)事务,并下发到各 source task(源任务)。
- exec 监控,负责接收上报的心跳、更新 mnode 中各任务的执行状态,以及定期监控检查点执行状态和 DAG 变动信息。
此外,mnode 还承担着向流计算任务下发控制命令的重要角色,这些命令包括但不限于暂停、恢复执行、删除流任务及更新流任务的上下游信息等。
在每个 vnode 上,至少部署两个流任务:一个是 source task,它负责从 WAL(在必要时也会从 TSDB)中读取数据,以供后续任务处理,并将处理结果分发给下游任务;另一个是 sink task(写回任务),它的职责是将收到的数据写入所在的 vnode。为了确保数据流的稳定性和系统的可扩展性,每个 sink task 都配备了流量控制功能,以便根据实际情况调整数据写入速度。
基本概念
有状态的流计算
流计算引擎具备强大的标量函数计算能力,它处理的数据在时间序列上相互独立,无须保留计算的中间状态。这意味着,对于所有输入数据,引擎可以执行固定的变换操 作,如简单的数值加法,并直接输出结果。
同时,流计算引擎也支持对数据进行聚合计算,这类计算需要在执行过程中维护中间状态。以统计设备的日运行时间为例,由于统计周期可能 跨越多天,应用程序必须持续追踪并更新当前的运行状态,直至统计周期结束,才能得出准确的结果。这正是有状态的流计算的一个典型应用场景,它要求引擎在执行过程中保持对中间状态的跟踪和管理,以确保最终结果的准确性。
预写日志
当数据写入 TDengine 时,首先会被存储在 WAL 文件中。每个 vnode 都拥有自己的 WAL 文件,并按照时序数据到达的顺序进行保存。由于 WAL 文件保留了数据到达的顺序,因此它成为流计算的重要数据来源。此外,WAL 文件具有自己的数据保留策略,通过数据库的参数进行控制,超过保留时长的数据将会被从 WAL 文件中清除。这种设计确保了数据的完整性和系统的可靠性,同时为流计算提供了稳定的数据来源。
事件驱动
事件在系统中指的是状态的变化或转换。在流计算架构中,触发流计算流程的事件是(超级)表数据的写入消息。在这一阶段,数据可能尚未完全写入 TSDB,而是在多个副本之间进行协商并最终达成一致。
流计算采用事件驱动的模式执行,其数据源并非直接来自 TSDB,而是 WAL。数据一旦写入 WAL 文件,就会被提取出来并加入待处理的队列中,等待流计算任务的进一步处理。这种数据写入后立即触发流计算引擎执行的方式,确保数据一旦到达就能得到及时处理,并能够在最短时间内将处理结果存储到目标表中。
时间
在流计算领域,时间是一个至关重要的概念。TDengine 的流计算中涉及 3 个关键的时间概念,分别是事件时间、写入时间和处理时间。
- 事件时间(Event Time):这是时序数据中每条记录的主时间戳(也称为 Primary Timestamp),通常由生成数据的传感器或上报数据的网关提供,用以精确标记记录的生成时刻。事件时间是流计算结果更新和推送策略的决定性因素。
- 写入时间(Ingestion Time):指的是记录被写入数据库的时刻。写入时间与事件时间通常是独立的,一般情况下,写入时间晚于或等于事件时间(除非出于特定目的,用户写入了未来时刻的数据)。
- 处理时间(Processing Time):这是流计算引擎开始处理写入 WAL 文件中数据的时间点。对于那些设置了 max_delay 选项以控制流计算结果返回策略的场景,处理时间直接决定了结果返回的时间。值得注意的是,在 at_once 和 window_close 这两种计算触发模式下,数据一旦到达 WAL 文件,就会立即被写入 source task 的输入队列并开始计算。
这些时间概念的区分确保了流计算能够准确地处理时间序列数据,并根据不同时间点的特性采取相应的处理策略
时间窗口聚合
TDengine 的流计算功能允许根据记录的事件时间将数据划分到不同的时间窗口中。通过应用指定的聚合函数,计算出每个时间窗口内的聚合结果。当窗口中有新的记录到达时,系统会触发对应窗口的聚合结果更新,并根据预先设定的推送策略,将更新后的结果传递给下游流计算任务。
当聚合结果需要写入预设的超级表时,系统首先会根据分组规则生成相应的子表名称,然后将结果写入对应的子表中。值得一提的是,流计算中的时间窗口划分策略与批量查询中的窗口生成与划分策略保持一致,确保了数据处理的一致性和效率。
乱序处理
在网络传输和数据路由等复杂因素的影响下,写入数据库的数据可能无法维持事件时间的单调递增特性。这种现象,即在写入过程中出现的非单调递增数据,被称为乱序写入。
乱序写入是否会影响相应时间窗口的流计算结果,取决于创建流计算任务时设置的 watermark(水位线)参数以及是否忽略 ignore expired(过期数据)参数的配置。这两个参数共同作用于确定是丢弃这些乱序数据,还是将其纳入并增量更新所属时间窗口的计算结果。通过这种方式,系统能够在保持流计算结果准确性的同时,灵活处理乱序数据,确保数据的完整性和一致性。
流计算任务
每个激活的流计算实例都是由分布在不同 vnode 上的多个流任务组成的。这些流任务在整体架构上呈现出相似性,均包含一个全内存驻留的输入队列和输出队列,用于执行时序数据的执行器系统,以及用于存储本地状态的存储系统,如下图所示。这种设计确保了流计算任务的高性能和低延迟,同时提供了良好的可扩展性和容错性。