演讲实录|博睿数据副总裁杨雪松:可观测性建设之路(上)
企业在升级替换国产化软硬件过程中面临着诸多挑战。如国产化软硬件的升级替换的核心点和难点,不同行业需求的共性与差异,散装数据库全栈基础软硬件与数据库一体机有何差异?企业在选型时需关注哪些因素?如何实现平滑稳定的升级替换?针对上述问题,ITPUB 特别策划了“国产化软硬件升级替换之路”的线上沙龙,诚邀数据库领域的顶级专家,分享他们在国产化软硬件替代方面的最新研究成果和实战经验,共同探讨国产化软硬件替代的关键议题与解决方案。
近日,博睿数据副总裁杨雪松受邀出席“国产化软硬件升级替换之路”第八期线上沙龙,分享一体化智能可观测平台的实践经验。
以下为演讲全文——上篇。
轻舟已过万重山:
深入理解可观测性与运维的内在联系
在科技日新月异的时代背景下,2023 年成为了一个充满变化和创新的转折点,这一年,我们见证了信创产业的蓬勃发展。电影《长安三万里》中,李白的一首《早发白帝城》中的“轻舟已过万重山”以其深刻的内涵和背景,让大家对这句诗比以往任何时候更多一些理解和思考,继而引发广泛的共鸣。
假如这首诗是一个我们所监控的运维对象,并需要进行深入的观测分析,如何才能更全面、更深入地理解它呢?这就好比我们面对一个未知的系统或问题,需要运用各种工具和手段去探索、了解和解决。
传统的运维工作中,我们可能会像查阅课本一样,依赖于一些基本的监控工具来获取关于系统的基本信息。就像我们对古诗的理解,是通过查阅注释和作者的简介,达到对诗的基本内容和背景有一个初步的了解。仅仅依赖这些基础信息是远远不够的,在古诗中,一些言辞和意象可能因为时代的变迁而变得难以理解。同样,在复杂的系统中,一些深层的问题和关联可能难以被轻易地发现,需要我们进一步深入探索,寻找隐藏在表面之下的信息和关联。
“轻舟已过万重山”这句诗描绘了诗人李白一生的跌宕起伏,以动画电影的形式,让我们可以更深入地理解李白写这首诗的心境和人生历程。这启发我们思考,如何将这种深入的理解应用到我们的可观测性工作中。通过建立更为完整的监控体系,运用更为先进的工具和技术,使我们更深入地了解系统的运行状态和存在的问题,就像我们通过观看《长安三万里》后,对诗的理解达到了前所未有的高度。
那么,这首诗与我们的可观测性及运维工作之间有何关联呢?其核心都是对深入理解和体验的追求。只有通过深入的探索和分析,我们才能真正地理解古诗的意境和运维对象的本质,从而更好地进行监控和维护工作。
丰富的上下文才是可观测性的王道
从最早的简单工具监控,到一体化运维监控,再到智能监控,技术的不断进步让我们所面临的监控对象变得越来越复杂,使监控难度持续加大。正是这种复杂性和挑战,促使我们不断探索和迭代新的技术。可观测性在这样的背景下应运而生,对我们而言就是在比较复杂的情况下,怎么能才让我们对监控对象有更深刻的理解。我们可以对标一下。
这首诗如同许多古诗一样,初读之下并不容易理解。从我们在课本上初次接触到如今在互联网上广泛搜寻,诗意的解读已经演绎出了更为丰富的形式。令人惊叹的是,有人竟能用一部电影,将李白跌宕起伏的一生浓缩在一个多小时的时间里,通过艺术的手法将其生动地呈现出来。这种表现形式无疑深化了我们对李白及其作品的理解。
由此,我深感启发。在运维领域的可观测性方面,是否也能借鉴这种丰富的上下文呈现方式呢?
我认为,这正是可观测性的精髓所在——将观测对象的背景与所有数据紧密相连,为我们提供一个深入理解的媒介。在复杂多变的背景下,只有掌握了全面的信息,我们才能准确洞察监控对象到底发生了什么。
诗意的延伸让我们领悟到上下文在可观测性中的重要性。传统观念中可观测性的三大要素:Trace 链路、Metric 指标、Log 日志,曾是我们不可或缺的工具。如今看来,三大要素过于单一,不足以应对日益复杂的系统环境。为更好地理解和监控复杂的系统,我们需要不断地丰富和完善上下文信息。除了传统的三大要素,还需要将服务的调用关系、用户旅程和行为、网络性能等数据纳入其中。通过将这些数据源进行串联和整合,我们可以获得更全面、更深入的理解,并准确判断系统的运行状态和潜在问题,从而采取有效的措施进行解决。
对于现代运维而言,可观测性的内涵已经远远超出了传统的三大要素范畴。我们需要以更加开阔的视野和更加精细的手法来应对这个充满挑战的时代。为更好地制定国家层面的可观测性标准,我们与信通院一起做国家可观测性的标准时,不断挖掘和整合各种数据源,力求打造一个更加全面、精准的可观测性体系。当然,仅仅关注用户里程是远远不够的,我们还需要深入挖掘那些可能影响用户体验的潜在事件和原始数据。同时,网络性能的相关指标如丢包、延时和吞吐量等也不容忽视。我们需要将这些看似琐碎的信息串联起来,形成一个完整的故事链条。
“轻舟已过万重山”这句诗不仅为我们提供了一个看待运维领域的全新视角,还揭示了可观测性与运维之间的紧密联系。让我们更加注重上下文信息的收集和分析,全面了解系统的运行状况和性能。此外,我们应该发扬“轻舟已过万重山”的精神,勇敢地面对运维中的各种挑战和困难,通过不断的努力和实践,提升我们的运维水平和效率,更好地应对快速发展的科技时代所带来的各种机遇和挑战。
评论