写点什么

告别数据烦恼,如何一键搞定数据归档与清理?

作者:NineData
  • 2024-06-24
    浙江
  • 本文字数:2066 字

    阅读完需:约 7 分钟

NineData 的数据归档与清理功能已经发布将近半年时间,在这段时间里,解决了一大批企业在过期数据处理方面的大麻烦,可以相对自动化地定期执行如下数据归档与清理工作。

数据归档与清理


识别业务库中的归档数据→移动到归档库→清理业务库的已归档数据→整理业务库表空间。

归档数据流程


这样一来,在磁盘容量的管理上,基本就可以当甩手掌柜了,除了无需再花时间精力检查哪些数据需要清理之外,也不用再担心误将有效数据当无效数据清理,以及无效数据堆积导致数据库访问缓慢等等问题了。

这种情况下,如果你的数据库出现了容量不足告警,那就说明磁盘空间真的无法再满足当前业务了,直接踏踏实实扩容就行。

传统数据归档的不足之处

尽管数据归档与清理功能完成度已经非常高了,但是在应对各种五花八门的场景时,仍然可能会有一些磕绊,笔者花了几个月的时间收集用户的实际使用反馈,大致整理出了如下一些需求:

  • 不支持时区配置:海外业务的数据库使用的时区和国内不一致,用户在配置该海外业务的数据归档与清理的执行时间后,NineData 会在中国时间的该时间点执行任务,而此时该海外业务正处在繁忙阶段,可能影响该数据库的存取性能。因此,需要手动将目标地域的归档时间换算成中国时间,然后将换算后的时间设置为数据归档与清理的执行时间。

  • 时间字段支持不全面:NineData 需要基于用户表里的某个时间字段作为归档与清理的依据,该时间字段的数据类型需要是 DATETIME 类型,然而由于数据库配置的多样性,并不是所有时间字段都使用了 DATETIME 类型,也可能是 CHAR、VARCHAR 等,导致配置的时候 NineData 没有认出该时间字段。

  • 数据冲突策略不灵活:经实测发现归档操作遇到数据冲突的情况下,系统直接忽略当前操作,有些需要直接做覆盖更新的场景无法配置。

  • 没有预览 SQL:对于归档和清理操作,虽然页面提供了示例 SQL 语句,但是没有根据当前的配置提供系统实际会执行的 SQL 语句,因此无法在执行前验证 SQL 是否符合预期。

传统数据归档的不足之处


NineData 数据归档与清理功能

截至今日,上述这些需求已经全面交付完成,NineData 在最近的一期迭代中,发布了针对数据归档与清理功能的一系列优化,除了修复已知问题外,还为该功能锦上添花,增加了不少实用的新能力。

1. 增加时区选择

在配置数据归档与清理任务时,可以在配置任务启动时间之前,先选择目标数据源所在地域的时区,无需再费脑子换算成中国时间,不仅增加了效率,还避免了换算失误的可能性。

2. 支持多种时间字段类型

在原来的 DATETIME 类型的基础上,新增了 INT、BIGINT、CHAR、VARCHAR 字段类型的支持,基本满足了大部分企业的不同时间字段类型场景。

3. 支持预览 SQL

在基本配置完归档和清理所需的参数后,可以通过预览 SQL,清晰查看到 NineData 即将对数据库执行的归档和清理操作,由此判断 SQL 是否符合预期。

4. 增加系统变量配置

新增 bizdate 系统变量,可自动获取当前系统时间,支持自定义系统时间的格式。可用于归档时自动在目标新建表时,取当前系统时间作为表名,同时,还适用于 WHERE 条件书写等场景。

5. 增加 Optimize 策略

在数据库中执行清理数据操作后,通常需要手动执行 Optimize 操作释放存储空间,虽然定义存储过程可以自动在数据库执行某些操作后执行,但由于黑屏操作门槛较高无法轻松实现。通过 NineData 的 Optimize 策略选项,轻松配置让 NineData 代替您操作回收表空间。

6. 增加数据冲突处理策略

支持用户在配置任务阶段,即可根据业务要求选择数据归档时的数据冲突处理策略,支持忽略和覆盖两种选项。

7. 增加执行时长选项

在创建数据归档任务时,对周期性任务提供了执行时长选项,通过该选项给任务限制执行时长,避免任务执行时间超出预期时长给业务库带来不良影响。例如,可以设置归档任务于业务低峰期的 0 点开始执行,执行时长设置为 6 小时,则早上 6 点时,即使任务没有执行完成,也会自动停止,避免影响业务。

NineData 新能力配置演示

NineData 新能力配置演示


时区:时区可以在任务的首个配置页面就选定,该任务的所有后续操作都将基于该时区执行。

Optimize 策略:选择多少次清理操作之后自动执行 Optimize 操作释放表空间。

执行时长:选择当前任务所允许的最长执行时长,超过后无论任务是否执行完成,都将被停止,避免高峰期间对业务库产生不良影响。

数据冲突处理策略:选择归档时,目标库中存在相同数据时的处理策略,支持忽略覆盖

数据冲突处理策略


系统变量:设置 bizdate 变量的格式,默认为 yyyyMMdd,例如 20240617。您也可以根据自身需求进行配置,例如 yyyy-MM-dd,则最终效果为 2024-06-17。

根据系统变量新增表名:示例中,使用了 customers$(bizdate),则新建的表名格式为 customers<当前时间>,例如 customers20240617。

时间字段:已经支持将 INT、BIGINT、CHAR、VARCHAR 字段类型的列作为时间字段进行选择。

预览 SQL:在配置完成后,单击预览 SQL 可以显示系统即将对数据库做的归档和清理操作。

总结

通过这次大更新,已经基本解决了大部分的问题。即便如此,NineData 仍然不是完美的,仍然可能存在一些细微的点没有被察觉,因此用户的声音至关重要。NineData 会基于用户反馈持续优化和提升产品,确保十年如一日地提供优质的产品质量和用户体验。

用户头像

NineData

关注

NineData公众号(ID:NineData-Cloud) 2022-11-30 加入

玖章算术研发了云原生智能数据管理平台NineData,包含SQL开发、数据复制、备份和对比等功能,轻松完成数据上云、传输、ETL、备份、SQL开发、数据库研发规范、生产变更和敏感数据管理,致力于让每人用好数据和云。

评论

发布
暂无评论
告别数据烦恼,如何一键搞定数据归档与清理?_数据归档_NineData_InfoQ写作社区