写点什么

“龙蜥社区系统运维 MeetUp”乘云数字议题分享

作者:乘云 DataBuff
  • 2023-08-18
    浙江
  • 本文字数:2204 字

    阅读完需:约 7 分钟

2023 年 8 月 12 日,由龙蜥社区主办、乘云数字协办的 “龙蜥社区系统运维 MeetUp” 主题活动于杭州成功举办。本次活动聚集了高校教授、业内主流可观测厂商以及众多开发爱好者莅临现场,共同探讨可观测技术,线上超 1 万人观看并参与了互动。



乘云数字作为本次活动协办方,精彩呈现了以“云观测场景下的 Tracing 全量存储技术研究”为题的主题演讲,并发布了行业领先的“TraceX 调用链全量存储系统”。



圆桌讨论环节,各位嘉宾就当下 IT 运维领域所面临的难题和技术趋势等话题展开了激烈而深入的探讨。乘云数字作为国内可观测领域的先行者,也发表了独特的看法。



下面就乘云数字在本次会议的具体分享内容展开介绍:


  1. TraceX 调用链全量存储系统


在本次活动中,DataBuff 产品线架构师针对本次议题进行了全面深入的技术分享。架构师详细阐述了构建 Tracing 全量存储的背景和必要性,以及实现这一目标的方法。此外,还生动展示了 TraceX 系统在实际落地中取得的显著效果。


下面是主题分享内容:



DataBuff 提出了两个关键理念:1)构建以“Tracing”为核心的一体化可观测系统;2)构建基于“拓扑”驱动的内生 AIOps 分析引擎


这两个理念是乘云公司在大量的项目实践中积累的宝贵思路。在这两个关键理念中,Tracing 都是关键要素。


从数据层面,Tracing 是“观测五件套”的核心数据类型,可以提供交易级的追踪分析,任何数据都代替不了;


从关系层面,基于拓扑驱动构建的内生 AIOps 技术路径(或称之为现代 AIOps),较传统 AIOps 能够提供确定性的根因分析,而 Tracing 同样拓扑的核心,所有的空间地图都是围绕 Tracing 为中心展开。


因此 Tracing 的数据处理难题是可观测领域的核心难题,而“全量存储”又是众多难题中的重中之重。尤其是在云原生时代,容器的规模是爆炸的,原先虚拟化环境 VM 的数量是成百上千个,在云计算环境 Container 的数量可能是上万、上百万的。海量的容器实时产生的数据与关系不可估量,如果不能较好的解决 Tracing 的全量存储难题,就无法有效的构建高效的可观测分析能力。


当前,国内大多可观测软件厂商都无法解决这个问题,大量丢弃客户链路追踪数据的现象层出不穷,在安全合规、故障回溯、算力成本方面均受到了挑战。乘云公司就这种难题,专门开发了一款“TraceX 调用链全量存储系统”,该系统集成到 DataBuff 一体化观测平台内部,用以解决众多客户的困扰。


系统介绍:


TraceX 是 DataBuff 产品线研发专家推出的面向大规模场景、实现全量化存储调用链数据的专用存储系统。它主要有 2 部分组成:


  • 写入服务:负责将原始 Tracing 进行压缩并转换成 offset,写入到重造的 KV 索引系统中。

  • 重造的 KV 索引系统:负责对 TraceID+SpanID:offset 的 KV 键值对进行高效存储和查询。


TraceX 本质上适用于任何一位购买可观测软件或 APM 软件的客户,尤其适用于交易规模特别庞大的行业客户(如互联网电商公司、银行高并发交易系统等)。很多可观测软件厂商,为了降低后台集群压力,不得不大量丢弃客户的链路追踪数据,最终在安全审计与合规、故障排除、性能优化、历史回溯等环节面临严峻挑战。TraceX 能够有效的降低 Tracing 数据的存储成本、提升分析效率,真正达到降本增效的目的。



效果展现:


TraceX 的整体效果可以达到:每天 1PB 的原始 Trace 数据,高峰期 1300 万 TPS 的 Trace 写入,使用的资源如下:

  1. 110C 的计算资源

  • 写入服务占用 100C

  • 重造的 KV 索引系统占用 10C,单核可支撑 130 万 tps

  1. 80T 的存储:上述写入和 KV 索引的总量。

  2. 单 Span 查询平均耗时 200ms。



  1. 圆桌讨论话题


圆桌讨论环节,阿里云系统服务负责人冯富秋主持会议,提出多个 IT 运维领域的关键问题,各位嘉宾踊跃发言、见地深刻。下面就其中一个话题,展开介绍乘云公司度远先生的个人见解。


 目前运维系统在哪些技术还需要突破? 对于最近大火的大模型,你有什么尝试或看法?你觉得目前的应用困难在哪里? 


乘云数字在今年 7 月份,率先发布了国内首款商业化的 OpsGPT 引擎,是业界较早将大语言模型在 IT 运维领域的垂直应用落地。我们初步计划将 OpsGPT 打造成一位低成本、高效率的运维老专家,用以辅助运维工程师开展工作。


作为业内首家吃螃蟹的创业公司,乘云数字的力量还很微弱,在大模型领域的探索才刚刚开始。初期的探索中,我们的一点小小体会是,大模型作为人工智能领域的重大技术变革,对企业 IT 服务领域的影响重大而深远,但现阶段也不适合过早过度神话,无论是底层数据质量、算力支撑、指令级的专业知识、向量数据库逻辑等都是需要进一步演进和积累。这个领域需要有使命感的领军企业来带动,以大模型为抓手,大家以更开放的态度,共同协作,才能为用户提供更大的价值。


OpsGPT 的路还很长,但 DataBuff 产品线本身就是一款集业界最先进可观测技术的集大成者,所以我们希望 OpsGPT 这个模块能够在 DataBuff 产品中发挥越来越重要的功能,为客户生产环境中的根因定位、故障自愈等技术难题提供更多的能量。



结尾:


本次 MeetUp,在龙蜥社区及各企业、开源爱好者的热情参与下圆满结束。现场,各位嘉宾纷纷发表了精彩卓越的技术见解,乘云数字参会的小伙伴也是获益良多。通过本次活动,各行业专家与线上、线下的参会者共享技术成果、交流技术进展、凝聚产业共识,共同打造中国可观测的运维能力建设。


最后,作为本次活动的协助方,乘云数字特此感谢各位参会者的热烈支持、不远万里到杭参会。重点感谢龙蜥社区能够主办本次活动,聚齐同行业技术爱好者共同探讨中国可观测性的未来发展,为中国云运维发展贡献力量。希望这样的 MeetUp 会议越来越多、经久不衰。


用户头像

让云运维更简单 2023-06-25 加入

云观测领导者

评论

发布
暂无评论
“龙蜥社区系统运维MeetUp”乘云数字议题分享_乘云 DataBuff_InfoQ写作社区