写点什么

CnosDB 实时流式计算:优化时序数据处理与降采样解决方案

作者:CnosDB
  • 2024-11-18
    德国
  • 本文字数:2180 字

    阅读完需:约 7 分钟

CnosDB 实时流式计算:优化时序数据处理与降采样解决方案


在处理时序数据时,数据写入周期通常与数据采集设备的频率相关,有时每秒钟就需要处理大量的数据点。长时间处理如此多的数据会导致存储问题。一个有效的解决方案是使用流式计算,将原始数据进行降采样。


流式计算在时序数据库中指对实时数据流进行计算和处理,以便在数据到达时立即得到计算结果。通过流式计算,我们可以实时地对数据进行处理,例如降采样、聚合、过滤等操作,从而减少数据存储量,并获得实时的统计信息。


流式计算的基本原理是通过对实时数据流进行处理,生成所需的计算结果。例如,将每分钟的数据点合并为每小时的数据点。合并过程可以使用各种统计方法,如最大值、平均值、总和等。 


CnosDB 提供了 STREAM 类型的表,用于处理流式数据计算。流查询要求 SELECT 函数中必须包含 GROUP BY time()子句。通过流查询,我们可以实时地对数据进行处理,并将结果存储到目标表中。这在其他数据库中的概念类似物化视图


创建 CnosDB Stream 表的语法为:

需要一个 source 表,STREAM 表不支持 ALTER

CREATE STREAM TABLE [IF NOT EXISTS] table_name[(field_definition [, field_definition] ...)]    WITH (db = 'db_name', table = 'table_name', event_time_column = 'time_column')    engine = tskv;
field_definition: column_name data_type
复制代码


以下是一个示意图,展示了流式计算中的降采样过程:


实现步骤

前置条件:

需要有一个用于流计算的原始表,通过流表视图可以实时收到原表中写入的数据,在流表中建立的流计算定时任务会定时执行,处理原表中的数据,并将其写入目标表。

以下示例使用 CnosDB 中 快速开始 中的示例数据:

在 cnosdb-cli 中导入数据集

\w oceanic_station.txt
复制代码


1. 创建流表视图

首先,需要创建一个 流表视图 air_stream,该视图从原始表 air 中读取数据,并在流查询中使用。

CREATE STREAM TABLE air_stream(    time TIMESTAMP,    station STRING,    pressure DOUBLE,    temperature DOUBLE,    visibility DOUBLE) WITH (    db = 'oceanic_station',     table = 'air',     event_time_column = 'time')engine = tskv;
复制代码


2. 创建目标表

然后,创建一个目标表 air_down_sampling_1hour,用于存储降采样后的数据。

CREATE TABLE air_down_sampling_1hour(    max_pressure DOUBLE,     avg_temperature DOUBLE,     sum_temperature DOUBLE,     count_pressure BIGINT,     TAGS(station));
复制代码


3. 执行流查询并将结果插入目标表

通过流查询将降采样后的数据插入到目标表中。该查询每小时计算一次压力的最大值、温度的平均值、温度的总和以及数据行数。

INSERT INTO air_down_sampling_1hour(    time,     station,     max_pressure,     avg_temperature,     sum_temperature,     count_pressure) SELECT     date_bin(INTERVAL '1' HOUR, time, TIMESTAMP '2023-01-14T16:00:00') time,     station,     MAX(pressure) max_pressure,     AVG(temperature) avg_temperature,     SUM(temperature) sum_temperature,     COUNT(pressure) count_pressure FROM air_stream GROUP BY date_bin(INTERVAL '1' HOUR, time, TIMESTAMP '2023-01-14T16:00:00'), station;
复制代码


4. 查询降采样结果

当原表中有数据写入后,通过流表视图中任务可以实时计算,并写入目标表 air_down_sampling_1hour 中,查看降采样后的数据。

SELECT * FROM air_down_sampling_1hour LIMIT 10;
复制代码

以上查询将收到以下结果:


+---------------------+------------+--------------+-----------------+-----------------+----------------+ | time | station | max_pressure | avg_temperature | sum_temperature | count_pressure | +---------------------+------------+--------------+-----------------+-----------------+----------------+ | 2023-01-14T16:00:00 | XiaoMaiDao | 80.0 | 68.05 | 1361.0 | 20 | | 2023-01-14T17:00:00 | XiaoMaiDao | 79.0 | 63.75 | 1275.0 | 20 | | 2023-01-14T18:00:00 | XiaoMaiDao | 79.0 | 66.35 | 1327.0 | 20 | | 2023-01-14T19:00:00 | XiaoMaiDao | 78.0 | 68.05 | 1361.0 | 20 | | 2023-01-14T20:00:00 | XiaoMaiDao | 80.0 | 64.35 | 1287.0 | 20 | | 2023-01-14T21:00:00 | XiaoMaiDao | 77.0 | 61.05 | 1221.0 | 20 | | 2023-01-14T22:00:00 | XiaoMaiDao | 80.0 | 64.8 | 1296.0 | 20 | | 2023-01-14T23:00:00 | XiaoMaiDao | 80.0 | 66.35 | 1327.0 | 20 | | 2023-01-15T00:00:00 | XiaoMaiDao | 80.0 | 65.15 | 1303.0 | 20 | | 2023-01-15T01:00:00 | XiaoMaiDao | 80.0 | 69.55 | 1391.0 | 20 | +---------------------+------------+--------------+-----------------+-----------------+----------------+
复制代码


发布于: 刚刚阅读数: 6
用户头像

CnosDB

关注

还未添加个人签名 2022-04-18 加入

打造高性能、高压缩比、高可用的分布式云原生时间序列数据库,引领世界迈向万物智联 欢迎关注 https://www.cnosdb.com

评论

发布
暂无评论
CnosDB 实时流式计算:优化时序数据处理与降采样解决方案_时序数据库_CnosDB_InfoQ写作社区