写点什么

华为云 GaussDB(for Influx) 揭密:数据分级存储

  • 2022 年 4 月 20 日
  • 本文字数:2582 字

    阅读完需:约 8 分钟

本文分享自华为云社区《华为云GaussDB(for Influx)揭密第六期:数据分级存储》,作者:高斯 Influx 官方博客 。


“只存储这些数据一年就要花费 200 多万?”


面对老板的质疑,小王又重新讲解了一遍评估方案。为了支撑生产分析和系统运维,一个设备就需要几十个检测点数据,所有设备 24 小时不断采集数据,一天的数据量就会达到 TB 级,这些数据至少存储 2 年,再加上高可用的 3 副本,总的数据量会达到 PB 级。


小王又展示了当前云厂商存储价格和性能对比的调研结果:

不同存储其性能差异很大。例如 NVME 盘的吞吐量是 SATA 盘的 7 倍,IOPS 超过了 20 倍,当然对应的成本也高出 10 倍左右。根据测试评估,低成本的存储性能无法满足大量数据的写入和实时业务的监控,只得使用性能高的 SSD 盘,因此导致存储的成本提高。


成本提高,老板自然不满意。那如何才能既满足性能需求,又能控制成本呢?小王想,“实际上,不是所有的数据处理都需要很高的性能,如果把价值高的数据放在高性能磁盘上满足业务需求,价值低的数据放在低成本磁盘上降低成本,这样不就既能满足需求,又能降低成本了么?”


不过,想法很美好,现实很残酷,要实现这个方案,小王面临着更多的难题:

(1)怎么在一套系统中既能使用高性能存储,又能使用低成本存储?

(2)怎么区分高价值数据?

(3)高价值数据变成低价值数据后怎么自动转储?

(4)当前业务改造量要尽量少。

1. GaussDB(for Influx)解决方案

企业的数字化转型,数据是基础。为了能实时掌握设备、系统状态,需要采集大量的数据并进行实时处理。这些数据都属于时序数据,带有明显的特点,如时间戳、更新少、数据源唯一等。除了数据本身的特点,在业务应用上还具有如下特点:

  • 随着时间的推移,其被查询和分析的概率越来越低。

  • 随着时间的推移,对数据分析的实时性要求越来越低。

  • 随着时间的推移,数据的精度要求越来越低。

  • 数据只保留一段时间,到期后会删除。


如何结合时序数据的特点,实现小王既满足业务性能,又控制成本的美好愿望呢?华为云 GaussDB(for Influx)时序数据库的数据分级存储功能完美解决了困扰小王的问题。


1、华为云 GaussDB(for Influx)依托云原生能力,实现了计算存储分离的分布式架构,其中存储基于华为分布式存储 DFV 和对象存储 OBS,解决了在一套系统中既能使用高性能存储,又能使用低成本存储的问题,其具体架构如下图:



分布式 DFV 存储属于高性能存储,热数据放在 DFV 中确保业务性能要求;OBS 存储属于低成本存储,冷数据存储在 OBS 中,降低客户成本。


2、提供了冷热数据自动分离的方案,用户在创建保留策略时,可以指定冷热数据的划分时间,系统根据用户的指定,自动将数据分为热数据和冷数据,解决了数据如何划分的问题。

3、随着时间的推移,热数据转冷,系统会自动将数据转储到冷存储上。

4、上述过程中只有在创建 RP 时需要指定冷热数据策略。对于业务侧是不感知的,避免业务的适配和改造。

2. GaussDB(for Influx)冷热存储的使用

GaussDB(for Influx)存储分级功能使用十分方便,在购买冷存储后,设置 RP 策略时指定冷存储的时间即可,系统会根据 RP 策略,自动将冷数据转储到低成本存储上。业务在访问冷数据时,系统会自动去冷存储上读取,整个过程业务是不感知的,对业务无影响。

2.1 购买冷存储

GaussDB(for Influx)支持一键购买冷存储空间,可以在购买实例时选择是否够买冷存储,选择“是”,可以根据业务需求选择冷存储的大小,具体如下图:



也可以在购买实例后,独立购买冷存储。进入实例详情页面,点击创建冷存储空间,如下图:



跳转到如下页面,按照业务需求进行存储空间大小选择:



冷存储空也支持在线扩容,扩容过程中不影响业务。

2.2 购买冷存储

在购买了冷存储空间后,就可以按照业务需求设置冷数据的规则,系统会根据规则,自动划分冷热数据,并将冷数据存储在冷存储空间上。可以通过创建 RP 来指定冷热数据规则,具体示例如下:

// 在db名为mydb上创建名为myrp的RP,显示指定WARM DURATION为6d,表示6天前的数据是冷数据。create retention policy myrp on mydb duration 30d replication 1 warm duration 6d shard duration 3d
// 在db名为mydb上创建名为myrp的RP,没有指定WARM DURATION,表示没有冷数据。create retention policy myrp on mydb duration 30d replication 1 shard duration 3d
// 创建名为mydb的db,并带有名为myrp的RP,显示指定WARM DURATION为3d,表示3天前的数据是冷数据。create database mydb with duration 6d warm duration 3d name myrp
// 修改WARM DURATION为7d,表示7天前的数据是冷数据。alter retention policy myrp on mydb warm duration 7d
复制代码

规则设置完成后,系统会根据指定的规则,自动判断哪些数据属于冷数据,并自动将数据转储到冷存储上。

2.3 购买冷存储

冷数据规则设置好,插入数据一段时间后,系统会自动判断数据是否转为冷数据,如果已经成为冷数据,系统会自动将数据转储到冷存储上。可以通过 show shards 命令来查看数据的状态,如下图所示:

> show shardsname: hsdbid database retention_policy shard_group start_time           end_time             expiry_time          owners tier-- -------- ---------------- ----------- ----------           --------             -----------          ------ ----5  hsdb     myrp             2           2019-08-12T00:00:00Z 2019-08-19T00:00:00Z 2019-08-19T00:00:00Z 4      cold6  hsdb     myrp             2           2019-08-12T00:00:00Z 2019-08-19T00:00:00Z 2019-08-19T00:00:00Z 5      moving7  hsdb     myrp             2           2019-08-12T00:00:00Z 2019-08-19T00:00:00Z 2019-08-19T00:00:00Z 6      warm8  hsdb     myrp             2           2019-08-12T00:00:00Z2019-08-19T00:00:00Z 2019-08-19T00:00:00Z 7     
复制代码

cold:表示数据为冷数据,已存储在冷存储中;


moving:表示数据为冷数据,该数据正在转储到冷存储中;


warm:表示数据为热数据。

3. 总结

在应用了 GaussDB(for Influx)的冷热分级存储方案后,存储 100T 的数据量一年,按照 1 个月内的数据是热数据,其余是冷数据,其总体的存储成本从 250 万降至 37.5 万,可节省 85%的存储成本。


GaussDB(for Influx)除了冷热分级存储功能外,在集群化、读写性能、压缩率、高可用方面也做了深度优化,能更好地满足时序应用的各种场景。


点击关注,第一时间了解华为云新鲜技术~​

发布于: 刚刚阅读数: 2
用户头像

提供全面深入的云计算技术干货 2020.07.14 加入

华为云开发者社区,提供全面深入的云计算前景分析、丰富的技术干货、程序样例,分享华为云前沿资讯动态,方便开发者快速成长与发展,欢迎提问、互动,多方位了解云计算! 传送门:https://bbs.huaweicloud.com/

评论

发布
暂无评论
华为云GaussDB(for Influx)揭密:数据分级存储_华为云_华为云开发者社区_InfoQ写作社区