写点什么

谙流 ASK × 中国联通:2.25 小时→秒级,存算分离革新数据传输

作者:AscentStream
  • 2025-08-20
    上海
  • 本文字数:2011 字

    阅读完需:约 7 分钟

谙流 ASK × 中国联通:2.25 小时→秒级,存算分离革新数据传输

当前,电信行业正经历业务的快速发展和数据量的指数级增长,这为海量网络数据的汇聚、处理与分析带来了前所未有的挑战。

中国联通网络运营事业部需传输、处理来自 31 省的网络侧运营数据,包括用户手机与固网的信令位置信息、上网信息及核心网设备监控信息等,单日数据量超过 2PB

这些数据支撑了疫情期间的大数据行程码、四川甘孜灾情中的受灾群众位置定位等关键应用,对数据传输的实时性、一致性及稳定性提出极高要求。


客户简介

中国联合网络通信有限公司(简称中国联通)是中国三大电信运营商之一,专注于提供移动通信、宽带接入和数据服务。作为行业领先者,中国联通积极响应国家《“十四五”大数据产业发展规划》的号召,深入贯彻公司战略,致力于构建一个全国集约、架构领先、便捷服务、高效赋能的数据中台体系,以应对日益增长的数据规模和业务需求。


挑战与痛点

在架构升级前,中国联通海量数据传输面临三大核心痛点,严重制约数据服务能力:


1. 传输时延居高不下,峰值达 2.25 小时

传统数据传输基于 Kafka MirrorMaker 的流传输架构,传输稳定性差、时延高,尤其在用户行为高峰期(如早晨上班时段)无法应对数据量激增,其中,4G/5G 融合类话单数据传输峰值时延曾达 2.25 小时,导致业务决策滞后、应急响应效率降低。


2. 传输性能提升受限,128 分区后扩容再无效果

联通海量数据场景下,消费侧业务先遇到瓶颈,受到 Kafka 消费模型限制,需要通过增加分区数来

提升并发能力。然后,Kafka 存算绑定的单体架构,在分区数扩展到 128 个后,磁盘顺序追加写性能退化,导致无法通过扩容进一步提升传输性能和吞吐量。


3. 运维复杂、可用性风险大,故障恢复 4 小时

在 2PB 每日的传输场景下,硬件的损坏更换是常态。受限于 Kafka 副本机制,节点扩容、副本迁移、磁盘更换均需人工操作,数据搬迁过程需数小时且需专人监控。当出现流量突增,故障扩缩容成为常态,多集群并行操作,效率低风险高,易导致用户感知异常和业务受损。


解决方案

针对上述痛点,中国联通联合谙流科技部署谙流 ASK 商业化解决方案,核心依托存储与计算分离架构实现突破,彻底解决传统 Kafka 架构的固有局限:


1. 存算分离+100% Kafka 协议兼容,突破传输时延瓶颈,实现从“小时级”到“毫秒级”跃升


依托于 ASK 通过无状态计算节点(Broker)和分布式存储层(Storage)的存算分离架构,将数据传输与持久化存储解耦,配合联通和谙流自研 Kafka 协议兼容层传输组件,在无需改造现有 Kafka 应用的前提下,实现传输性能质的飞跃。


改造后:

  • 支撑广东精准营销时延由峰值 2.25 小时缩短至 20s 以内,秒级传输能力真正做到降本增效,有效提升实时业务的使用感知。

  • 4 种关键信令时延 45s 合格率提升到 99.04%,彻底解决高峰期数据积压问题。

  • 同时传输单线程吞吐量提升 30%,从 1.12 Gbit/秒 增至 1.5Gbit/秒,且支持云原生自动扩缩容,在现有硬件水平基础上,节点级传输可跑满带宽高达 18Gbps。


2. 突破分区扩容限制:“消费模型重构+分片动态均衡”,支持 1000 分区无性能衰减


针对 Kafka “分区-消费者绑定” 及 “存算强耦合” 导致的扩容瓶颈,在谙流基于 ASK 通过创新的消费模型与数据分片机制之上,帮助实现分区数量弹性扩展至 1000 个以上,且性能无衰减。


改造后:

  • 基于分片机制与存算分离架构,在多达 1000 个分区以上,仍能保持线性性能增长,单集群有效吞吐量提升 30% 以上

  • 利用分片动态均衡技术,使分区数量从 128 个扩展至 512 个时,磁盘 I/O 利用率仍稳定在 55%±5%,无明显性能下降,整体提升磁盘有效利用率。


3. 突破运维复杂性困局:“自动扩缩容+故障自愈”,将故障恢复从 4 小时压缩至 15 分钟


针对 Kafka 节点扩容需人工搬迁数据、故障恢复依赖人工操作的痛点,联通联手谙流,打造一站式智能运维监控平台,实现全流程自动化运维,大幅降低可用性风险。


改造后:

  • 节点故障恢复时间从 4 小时缩短至 15 分钟,人工干预频次减少 80%

  • 磁盘损坏更换时,数据自动迁移至新节点,无需专人监控,彻底摆脱“人工救火”状态。


实施成果


架构升级后,中国联通数据传输服务能力实现显著提升,核心成果如下:


1. 传输时延从 2.25 小时降至秒级,应急响应效率提升 99%

融合类话单数据传输峰值时延从 2.25 小时降至秒级,满足疫情流调、灾情定位等应急场景的实时性要求,数据驱动决策的时效性得到极大提升。


2. 存储资源利用率提升 60%,有效支持实时位置等更多数据传输

存算分离架构使存储资源利用率整体提升 60% 多,磁盘有效利用率提升至 85% 以上,单台硬件传输性能提升 30%,为更多 5G、实时位置数据的传输打下坚实基础。


3. 故障恢复时间从 4 小时缩短至 15 分钟,运维效率提升 16 倍

通过自动化数据迁移与自愈机制,故障场景下未消费数据的处理时间从原来的 4 小时缩短至 15 分钟,人工干预频次减少 80%,运维团队可聚焦更核心的策略优化工作。


谙流 ASK 是谙流团队自主研发的国产新一代云原生流平台,与 Apache Kafka 100% 协议兼容,全栈自主可控,专注私有化部署与行业场景赋能。

用户头像

AscentStream

关注

还未添加个人签名 2017-10-19 加入

还未添加个人简介

评论

发布
暂无评论
谙流 ASK × 中国联通:2.25 小时→秒级,存算分离革新数据传输_大数据_AscentStream_InfoQ写作社区