谙流 ASK 技术解析(三):冷热数据自治分层

谙流 ASK 是谙流团队自主研发的国产新一代云原生流平台,与 Apache Kafka 100% 协议兼容,全栈自主可控,专注私有化部署与行业场景赋能。
ASK 分层存储
破解海量数据流存储困局
随着企业实时数据规模指数级增长,传统消息队列面临数据存储成本居高不下的巨大挑战。ASK 通过分层存储架构实现热冷数据分离,在保证毫秒级访问性能的同时,显著降低长期存储成本。
分层存储的核心价值
给数据分 "冷热"
想象一下,你的手机相册里,最近拍摄的照片会频繁查看,而几年前的旧照片可能很久才会翻一次。如果把所有照片都存在手机自带的高速存储里,不仅浪费空间,还会增加成本。ASK 的分层存储就像一个智能相册管家,会根据数据的访问频率自动分类:
01
热数据
最近产生、频繁访问的数据,如实时交易记录、系统监控日志等,存放在高性能的 ASK Storage 中,确保毫秒级响应。
02
冷数据
访问频率低但需长期保存的数据,如历史订单、旧日志等,自动迁移到低成本的对象存储中,可节省 70% 以上的存储成本:
1TB 冷数据存储 1 年
OSS 低频访问存储:
存储费用:0.08 元 / GB / 月 × 1024GB × 12 = 983.04 元
假设每年 1 次访问:请求费用可忽略不计
总成本:约 983 元
ECS 高效云盘:
容量费用:0.35 元 / GB / 月 × 1024GB × 12 = 4300.8 元
总成本:约 4301 元
成本差异:OSS 节省 77%
这种 "冷热分离" 的机制,让企业不必为所有数据都支付高昂的高性能存储费用,同时又能保证核心业务的数据处理效率。
重要特性
ASK 分层存储的特点
ASK 分层存储的运作机制可以形象地比作一部 "数据电梯",能根据预设规则自动将数据在不同存储层之间迁移。其特点如下:
多种实现:分层存储以插件形式集成到 ASK 产品之中,您可以按需引入不同实现并作用到 Topic 级别。插件以 Apache Jcloud 和 Apache Hadoop 为底座,提供阿里云 OSS、腾讯云 COS 和 Apache Hadoop 等多种存储方式。
简单配置:通过简单且不同粒度的配置,将需要归档的数据(如 30 天之前或超出 1TB 的数据)会被标记为 "可迁移"。
异步迁移:ASK 会异步地将冷数据段悄悄迁移到低成本存储,整个过程不影响业务运行。迁移完成后,数据索引会同步更新,确保访问时能准确找到数据位置。
透明访问:当需要访问冷数据时,用户无需手动切换存储位置,ASK 会自动从低成本存储中读取数据,体验与访问 ASK Storage 完全一致。
这种机制既保证了热数据的处理性能,又大幅降低了冷数据的存储成本。
核心原理
无缝迁移的“数据电梯”
在之前的文章https://xie.infoq.cn/article/d4348f6297603c3b842c39f3a中我们介绍了 ASK 产品的热数据存储模型,分层存储的实现便建立在其之上。
1. 数据识别与迁移触发:谁是“冷数据”?
策略驱动: 管理员定义清晰的“冷化”策略。最常用的是基于时间的策略(例如,消息被写入超过 7 天后即视为冷数据)。此外,也可基于存储大小(当某个主题的数据量达到设定阈值)或手动触发。
作用粒度: 策略作用于主题级别或命名空间级别,提供灵活性。迁移的基本单位是分片(Segment),这是 ASK Storage 管理数据的基本块(对应一段时间窗口内的数据,可配置,通常约为 2GB 大小)。
触发机制: ASK 服务持续监控主题或命名空间的数据状态。一旦检测到某个分片满足预设的冷化策略条件,便会将该分片标记为待迁移对象,并启动迁移流程。
2. 数据迁移过程:无缝、安全地“搬家”到云端
后台异步操作: 迁移过程完全在后台异步执行,绝不阻塞实时的生产或消费操作,对业务透明。
数据准备与上传:
▫ 迁移服务(运行在 ASK Broker 中)从 ASK Storage 读取目标分片(Segment)的完整数据内容并构建数据索引(消息 ID → 数据文件的 Offset)。
▫ 数据被分块(通常为 5MB-64MB,可配置)上传到指定的云对象存储桶(如阿里云 OSS、腾讯云 COS 等)或兼容 S3 协议的文件系统(如 MinIO)。分块上传提高了上传效率和可靠性。
▫ 数据在云存储中以原始格式存储,保证了数据的完整性和可读性。
元数据更新 - 关键跳转: 这是实现“透明访问”的核心步骤。
▫ 数据成功上传到云存储后,ASK Storage 中该分片对应的原始数据块并不会被立即删除。
▫系统更新该分段(Segment)的元数据(Metadata),这条元数据相当于一个“指针”或“路标”,它精确记录了:
- 被迁移分片的标识信息。
- 该分片数据在云存储中的位置(如云存储的 Endpoint、Region、 Bucket 名称、对象 Key/路径等)。
▫ ASK Storage 中原始分片的数据内容此时可以被安全删除,从而显著释放 ASK Storage 的存储空间(根据配置策略,默认 4 小时后)。删除是可配置延迟的,提供额外安全保障。
3. 冷数据读取:用户无感知的“云端读取”
透明访问: 当消费者(可能是延迟消费、回溯消费或新启动的消费者)尝试读取已被迁移到云端的冷数据时,整个过程对用户是完全透明的。
元数据引导: 消费者向 ASK Broker 发起读取请求。
智能路由: Broker 在处理请求时,会检查请求数据所在分段(Segment)的元数据。当发现请求的数据分片被标记为已卸载时:
▫ Broker 根据元数据信息,自动定位到云存储中相应的数据对象。
▫ Broker 会按需下载所需的数据块,该步骤有预读优化,降低后续读取延时。
▫ 下载的数据可能在 Broker 本地进行短暂缓存,优化后续邻近数据的读取性能。
▫ Broker 将获取到的数据无缝返回给消费者,消费者完全感知不到数据是来自本地还是云端。
过程如下所示:
支持多种存储服务
灵活适配业务需求
ASK 分层存储支持对接多种主流存储服务,企业可根据自身情况选择最合适的方案:
云对象存储:包括阿里云 OSS、腾讯云 COS 等,适合有云服务使用经验的企业。
文件系统存储:如 HDFS,适合已部署分布式文件系统的企业。
S3 兼容存储:支持各类遵循 S3 协议的存储产品,提供更多本地化部署选择(如 MinIO, Ceph, CubeFS 等)。
无论选择哪种存储服务,ASK 都能保证数据迁移的安全性和完整性。提供金融级的高可靠服务。
简单易用
配置即上手
使用 ASK 分层存储无需复杂的技术改造,通过简单配置即可快速启用。
自动模式:管理员只需为命名空间(Namespace)或主题(Topic)级别设置存储阈值(如 10GB,或 1Day),当该命名空间下的所有 Topic 或该 Topic 的 数据满足要求时,系统会自动将最旧的数据段迁移到低成本存储。
手动模式:对于特殊需求的数据,可通过 ASK 管控台执行手动卸载。如配置 1GB 的阈值再点击卸载,即可将超出 1GB 的历史数据迁移至低成本存储。仅在 ASK Storage 中保留 1GB 的热数据。
ASK 产品中默认集成分层存储功能,配置成功后即刻生效,无需等待和重启。开箱即用,大幅降低使用门槛。
适配场景
全行业存储优化方案
ASK 分层存储适用于各类需要处理海量数据的场景:
日志存储:系统日志通常只在发生故障时需要查询最近的记录, 历史日志数据可迁移到低成本存储。
金融交易:实时交易数据需要高性能存储,而超过 3 个月的历史交易可归档,满足监管需求。
物联网数据:设备实时上传的监控数据需即时处理,而历史数据仅用于报表分析。
WHY US
全行业存储优化方案
与传统存储方案相比,ASK 分层存储的优势显而易见:
成本优化:通过冷热数据分离,最大可降低 70%以上的存储成本。
性能保障:热数据保留在 ASK Storage,确保核心业务不受影响。
无缝兼容:完全兼容 Kafka 协议,现有应用无需修改代码即可接入。
智能自动化:全流程自动执行,减少 90% 以上的人工运维工作。
高可靠性:多重数据校验和副本机制,确保数据零丢失。
在数据成为核心资产的今天,ASK 分层存储不仅是一种技术方案,更是一种数据管理理念。它让企业无需在性能与成本之间做两难选择,既能享受高性能存储带来的业务加速,又能通过分层策略大幅降低 IT 支出。无论是互联网、金融、制造业还是其他行业场景,ASK 分层存储都是数据管理的得力助手,让每一份数据都发挥最大价值。
联系我们,获取更多产品及服务信息。







评论