写点什么

谙流 ASK 技术解析(三):冷热数据自治分层

作者:AscentStream
  • 2025-09-19
    上海
  • 本文字数:3124 字

    阅读完需:约 10 分钟

谙流 ASK 技术解析(三):冷热数据自治分层

谙流 ASK 是谙流团队自主研发的国产新一代云原生流平台,与 Apache Kafka 100% 协议兼容,全栈自主可控,专注私有化部署与行业场景赋能。

ASK 分层存储

破解海量数据流存储困局

随着企业实时数据规模指数级增长,传统消息队列面临数据存储成本居高不下的巨大挑战。ASK 通过分层存储架构实现热冷数据分离,在保证毫秒级访问性能的同时,显著降低长期存储成本。


分层存储的核心价值

给数据分 "冷热"

想象一下,你的手机相册里,最近拍摄的照片会频繁查看,而几年前的旧照片可能很久才会翻一次。如果把所有照片都存在手机自带的高速存储里,不仅浪费空间,还会增加成本。ASK 的分层存储就像一个智能相册管家,会根据数据的访问频率自动分类

01

热数据

最近产生、频繁访问的数据,如实时交易记录、系统监控日志等,存放在高性能的 ASK Storage 中,确保毫秒级响应

02

冷数据

访问频率低但需长期保存的数据,如历史订单、旧日志等,自动迁移到低成本的对象存储中,可节省 70% 以上的存储成本

1TB 冷数据存储 1 年

OSS 低频访问存储

  • 存储费用:0.08 元 / GB / 月 × 1024GB × 12 = 983.04 元

  • 假设每年 1 次访问:请求费用可忽略不计

  • 总成本:约 983 元

ECS 高效云盘:

  • 容量费用:0.35 元 / GB / 月 × 1024GB × 12 = 4300.8 元

  • 总成本:约 4301 元

成本差异:OSS 节省 77%


这种 "冷热分离" 的机制,让企业不必为所有数据都支付高昂的高性能存储费用,同时又能保证核心业务的数据处理效率。


重要特性

ASK 分层存储的特点

ASK 分层存储的运作机制可以形象地比作一部 "数据电梯",能根据预设规则自动将数据在不同存储层之间迁移。其特点如下:

  1. 多种实现:分层存储以插件形式集成到 ASK 产品之中,您可以按需引入不同实现并作用到 Topic 级别。插件以 Apache Jcloud 和 Apache Hadoop 为底座,提供阿里云 OSS、腾讯云 COS 和 Apache Hadoop 等多种存储方式。


  2. 简单配置:通过简单且不同粒度的配置,将需要归档的数据(如 30 天之前或超出 1TB 的数据)会被标记为 "可迁移"。


  3. 异步迁移:ASK 会异步地将冷数据段悄悄迁移到低成本存储,整个过程不影响业务运行。迁移完成后,数据索引会同步更新,确保访问时能准确找到数据位置。


  4. 透明访问:当需要访问冷数据时,用户无需手动切换存储位置,ASK 会自动从低成本存储中读取数据,体验与访问 ASK Storage 完全一致。

这种机制既保证了热数据的处理性能,又大幅降低了冷数据的存储成本


核心原理

无缝迁移的“数据电梯”

在之前的文章https://xie.infoq.cn/article/d4348f6297603c3b842c39f3a中我们介绍了 ASK 产品的热数据存储模型,分层存储的实现便建立在其之上。


1. 数据识别与迁移触发:谁是“冷数据”?

  • 策略驱动: 管理员定义清晰的“冷化”策略。最常用的是基于时间的策略(例如,消息被写入超过 7 天后即视为冷数据)。此外,也可基于存储大小(当某个主题的数据量达到设定阈值)或手动触发

  • 作用粒度: 策略作用于主题级别命名空间级别,提供灵活性。迁移的基本单位是分片(Segment),这是 ASK Storage 管理数据的基本块(对应一段时间窗口内的数据,可配置,通常约为 2GB 大小)。

  • 触发机制: ASK 服务持续监控主题或命名空间的数据状态。一旦检测到某个分片满足预设的冷化策略条件,便会将该分片标记为待迁移对象,并启动迁移流程。


2. 数据迁移过程:无缝、安全地“搬家”到云端

  • 后台异步操作: 迁移过程完全在后台异步执行,绝不阻塞实时的生产或消费操作,对业务透明。

  • 数据准备与上传

    ▫ 迁移服务(运行在 ASK Broker 中)从 ASK Storage 读取目标分片(Segment)的完整数据内容并构建数据索引(消息 ID → 数据文件的 Offset)。

    ▫ 数据被分块(通常为 5MB-64MB,可配置)上传到指定的云对象存储桶(如阿里云 OSS、腾讯云 COS 等)或兼容 S3 协议的文件系统(如 MinIO)。分块上传提高了上传效率和可靠性。

    ▫ 数据在云存储中以原始格式存储,保证了数据的完整性和可读性。

  • 元数据更新 - 关键跳转: 这是实现“透明访问”的核心步骤。

    ▫ 数据成功上传到云存储后,ASK Storage 中该分片对应的原始数据块并不会被立即删除

    ▫系统更新该分段(Segment)的元数据(Metadata),这条元数据相当于一个“指针”或“路标”,它精确记录了:

    - 被迁移分片的标识信息。

    - 该分片数据在云存储中的位置(如云存储的 Endpoint、Region、 Bucket 名称、对象 Key/路径等)。

    ▫ ASK Storage 中原始分片的数据内容此时可以被安全删除,从而显著释放 ASK Storage 的存储空间(根据配置策略,默认 4 小时后)。删除是可配置延迟的,提供额外安全保障。


3. 冷数据读取:用户无感知的“云端读取”

  • 透明访问: 当消费者(可能是延迟消费、回溯消费或新启动的消费者)尝试读取已被迁移到云端的冷数据时,整个过程对用户是完全透明的。

  • 元数据引导: 消费者向 ASK Broker 发起读取请求。

  • 智能路由: Broker 在处理请求时,会检查请求数据所在分段(Segment)的元数据。当发现请求的数据分片被标记为已卸载时:

    ▫ Broker 根据元数据信息,自动定位到云存储中相应的数据对象。

    ▫ Broker 会按需下载所需的数据块,该步骤有预读优化,降低后续读取延时。

    ▫ 下载的数据可能在 Broker 本地进行短暂缓存,优化后续邻近数据的读取性能。

    ▫ Broker 将获取到的数据无缝返回给消费者,消费者完全感知不到数据是来自本地还是云端。

过程如下所示:


支持多种存储服务

灵活适配业务需求

ASK 分层存储支持对接多种主流存储服务,企业可根据自身情况选择最合适的方案:

  • 云对象存储:包括阿里云 OSS、腾讯云 COS 等,适合有云服务使用经验的企业。

  • 文件系统存储:如 HDFS,适合已部署分布式文件系统的企业。

  • S3 兼容存储:支持各类遵循 S3 协议的存储产品,提供更多本地化部署选择(如 MinIO, Ceph, CubeFS 等)。

无论选择哪种存储服务,ASK 都能保证数据迁移的安全性和完整性。提供金融级的高可靠服务。


简单易用

配置即上手

使用 ASK 分层存储无需复杂的技术改造,通过简单配置即可快速启用。

  • 自动模式:管理员只需为命名空间(Namespace)或主题(Topic)级别设置存储阈值(如 10GB,或 1Day),当该命名空间下的所有 Topic 或该 Topic 的 数据满足要求时,系统会自动将最旧的数据段迁移到低成本存储。


  • 手动模式:对于特殊需求的数据,可通过 ASK 管控台执行手动卸载。如配置 1GB 的阈值再点击卸载,即可将超出 1GB 的历史数据迁移至低成本存储。仅在 ASK Storage 中保留 1GB 的热数据。


ASK 产品中默认集成分层存储功能,配置成功后即刻生效,无需等待和重启。开箱即用,大幅降低使用门槛。


适配场景

全行业存储优化方案

ASK 分层存储适用于各类需要处理海量数据的场景:

  • 日志存储:系统日志通常只在发生故障时需要查询最近的记录, 历史日志数据可迁移到低成本存储。

  • 金融交易:实时交易数据需要高性能存储,而超过 3 个月的历史交易可归档,满足监管需求。

  • 物联网数据:设备实时上传的监控数据需即时处理,而历史数据仅用于报表分析。


WHY US

全行业存储优化方案

与传统存储方案相比,ASK 分层存储的优势显而易见:

  1. 成本优化:通过冷热数据分离,最大可降低 70%以上的存储成本。

  2. 性能保障:热数据保留在 ASK Storage,确保核心业务不受影响。

  3. 无缝兼容:完全兼容 Kafka 协议,现有应用无需修改代码即可接入。

  4. 智能自动化:全流程自动执行,减少 90% 以上的人工运维工作。

  5. 高可靠性:多重数据校验和副本机制,确保数据零丢失。


在数据成为核心资产的今天,ASK 分层存储不仅是一种技术方案,更是一种数据管理理念。它让企业无需在性能与成本之间做两难选择,既能享受高性能存储带来的业务加速,又能通过分层策略大幅降低 IT 支出。无论是互联网、金融、制造业还是其他行业场景,ASK 分层存储都是数据管理的得力助手,让每一份数据都发挥最大价值。


联系我们,获取更多产品及服务信息。

用户头像

AscentStream

关注

还未添加个人签名 2017-10-19 加入

还未添加个人简介

评论

发布
暂无评论
谙流 ASK 技术解析(三):冷热数据自治分层_消息队列_AscentStream_InfoQ写作社区