Datadog Dash 2024 新功能解析

Datadog 2024 年的 Dash 刚刚落下帷幕,作为正在与 Datadog 开始竞争的观测云,我们认真仔细的分析了 Datadog 的每一个新功能,发现一些很有意思的事情,今天就给大家做一次全面的分析。(所有 Datadog 的 Dash 的最新功能介绍均来自于 https://www.datadoghq.com/blog/dash-2024-new-feature-roundup-keynote/ ,大家可以参考原始说明。)
Part 1: DASH 2024 Keynote Roundup
观测能力
1、LLM Observability
不出意外,Agent 开发相关的可观测性必然被引入,相较于 LangSmith 只能调试 Agent 而言,Datadog 引入整个功能可以将全生命周期的观测延展到 Agent 开发,而不仅仅局限于 Agent 开发中的调试,这个价值必然大于单纯的 LangSmith。

这个能力,观测云也开发了一段时间了,预期会在近期就跟大家见面~
2、更好的兼容了 Otel 的 Collector 的 DDAgent
Datadog 终于正式的完整的将 Otel 纳入到了自己的体系内,现在 Otel 的标准化趋势已经无法撼动,任何的 Instrumentor,无论是用什么技术,从数据结构上也必然向 Otel 靠拢,这也是商业公司的一个妥协吧,所以未来的观测世界用什么手段获取数据,用什么手段观测不重要,但大家都不约而同的选择了统一的数据结构和范式。Datadog 很早就支持了 Otel 的数据结构,只不过这一次更是可以用 DDAgent 来作为 Otel Collector 了。

对于观测云来说,可能这是第一天就支持的,尤其在中国这种大环境,还存在注入 skywalking,早期 zipkin,jaeger 等等方案,所以观测云从第一天不仅仅是 Otel 的 Collector,还是其他各种技术方式的 Collector,这也意味着至少在兼容性方面,观测云比 Datadog 更广泛。
3、强大的数据分析能力的 LogWorkspaces
日志永远是可观测性数据的一个重要的组成部分,对日志能力的支持也是 Datadog 一直补强的重点。 这次推出了基于 SQL 的日志分析工作台。

观测云本身提供了统一的数据语言 DQL,意味着本身不仅仅对于日志,对于所有的数据都可以通过 DQL 进行非常个性化的分析。当然观测云目前并没有公开支持 SQL 分析,但观测云本身就是一个 MPP 数据仓库,我们没有暂时没有把 SQL 能力开放出来,不过其实使用 DQL 就能实现类似的效果,并且可分析的数据种类远远超过 Datadog。
4、Live Debug
对于程序员来说神级功能,某种程度上观测监控平台并不是一个仅仅面向运维的平台,与传统的监控系统相比最大差异也在其更被定位成一个远程的调试平台,所以能够对生产环境进行 Live Debug 对每个程序员来说都是非常幸福的事情。

观测云目前掌握相关技术,短期内没有产品化的想法,另外对于大家来说,能够让研发直接在线注入代码进行 Debug 这种功能,是怎么看的?
5、面向产品交互设计的分析能力
这个功能是在原来的 Rum 基础上的增强,包括增加了 Session Replay,Heatmap,桑基分析等能力,看来 Datadog 本身作为优秀的交互性产品,真的对宠爱前端开发工程师。

观测云本身也是非常宠前端开发工程师的,相关能力我们也正在补充中~期待在后续的更新中看到我们的 Heatmap 和桑基分析等能力。
安全能力
Datadog 不断地补强他的安全能力,在这部分由于观测云目前没有任何进军安全的想法,故不做解读,有兴趣的朋友可以自己查看原文。
行动/执行
从这里看,Datadog 的手开始变得长了,除了观测以外,也开始进入到控制领域了,只不过和传统中国式运维控制不同,Datadog 更强调的是通过数据来控制。
1、自动为 Kubernetes 机器进行扩缩容
Datadog 目前可以通过费用数据,或者监控数据直接根据你的策略,手动或者自动对你的 Kubernetes 集群进行管理了。

观测云也提供了控制能力,通过 Func 平台,观测云也可以提供相应的控制能力,只不过和 Datadog 比,我们并没有直接提供这种能力,想想在中国市场,一个云端应用可以直接管理你的基础设施和应用,还是蛮可怕的,不知道大家接受的了吗?
2、将变更情况与告警结合起来
Datadog 支持将发生告警的时候追溯上次变更情况,并可以观测代码的变化,快速协助工程师定位问题。这又是一个很好用的站在研发视角下的功能,大家就不用出问题自己再找版本去翻代码了。

观测云目前并没有这个功能,但其实已经在日程上了。
3、大模型自动根因分析 Bits.AI
这是 Datadog 自身与大模型结合的一个能力,通过对可观测性数据综合的 RAG,来出局一定指导意义的分析。

目前观测云也在调整 Prompt 和 Workflow 以获取更好的效果。
4、提升 OnCall 的可观测性分析体验
Datadog 有自己的 APP,最近进行增强,让移动端收到 OnCall 的工程师获得更好的体验以及更好的数据分析的体验。

观测云也有自己的 APP,但坦白来说,整体能力还是距离 Datadog 比较远。
Part 2: DASH 2024 Infrastructure Roundup
云费用管理
Datadog 加强了其云费用管理的功能,包括了以下这些能力:
1、将所有云服务的费用管理集中分析,包括一些 SaaS 服务的费用统计支持

2、可以监控管理云费用的变化

3、提供面向 AWS 的费用建议

4、支持 Twilio(云通信)的费用

对观测云来说,云费用管理更是已经类似解决方案的能力,我们目前并没有直接将这个能力封装成功能,但是由于观测云强大的配置能力,实际上我们不少用户就在使用观测云对自己的阿里云华为云 AWS 的费用进行分析管理和监控,未来我们考虑可以将这一部分能力设计的更好,向 Datadog 学习。
Serverless 监控
1、远程插桩 Lambda 的应用

2、提供全面的 AWS Step Functions 的可视化支持

3、自动插桩 Azure App Service Linux Web Apps

4、自动插桩 Google Cloud Run services

可以看出 Datadog 不断加强对于 Lambda 类型的函数计算的能力的支持,同时也看到 Datadog 对于多云的广泛支持。对于观测云来说,这部分是落后的,我们目前针对 AWS 还只是通过 AWS 的开源 Lambda Layer Extension 实现对 AWS Lambda 的支持,自己的 Layer Extension 正在开发中。所以这部分追赶尚需时日。
日志管理
1、通过 DDAgent 进行采集数据时的脱敏

2、提供更廉价的日志存储方案 Flex Logs

对于日志管理这两块的增强,首先第一个能力,观测云在一开始大量的技术都是放在客户端侧,因此端侧脱敏从一开始观测云通过 Pipeline 就支持了。 和 Datadog 相反,我们恰恰刚刚提供了中心侧的处理能力包括脱敏能力。
而日志本身提供更廉价分层,也是观测云努力的目标,期待在今年内看到我们有趣的存储方案。
网络监控
1、找到网络路径中的问题

2、从 IP 库 了解 IP 地址的信息

3、网络性能的监控能力

4、为自定义发现的网络设备追加 Tag

和观测云一样,Datadog 对本地网络监控能力也是后期追加的,也算在 npm 领域的追赶着,可能观测云在网络设备监控相关能力还比较弱,相较于 Zabbix,目前我们也在抓紧这部分能力的补全。
分析能力
1、DDSQL Editor

2、快速基于图形的根因分析

3、更好的告警分析面板

4、基础设施故障与变更关联

这两个分析能力对于观测云来说,第一个是基于 DQL 现在就有的能力,除了不是 SQL,我们早就可以做类似的自主分析,当然其实也可以基于 SQL,如果使用我们部署版本的客户,其实是可以打开 SQL 入口的。
第二个功能,又是一个结合大模型的功能,对我们非常有启发,期待后续提供类似的能力。
第三个功能非常值得借鉴,我们会尽快研究推出类似的能力。
第四个变更的关联分析这种能力也是 Datadog 完整变更观测的一部分,我们在整体的变更观测分析功能推出的时候会体现出来。
平台能力
1、Datadog Disaster Recovery

2、通过 Fleet Automation 管理 DDAgent

3、支持了美国政府专有云

关于这些,Datadog Disaster Recovery 是 Datadog 作为一个 SaaS 给到管理员一个超级权限进行行为兜底,显然是为了取得大企业的信任,当然这一点上观测云本身提供 OP 模式,在 OP 模式下的控制台就有这个能力。
而 Fleet Automation 对应的是观测云的 DCA(Datakit Control Administer),可以帮你轻松的管理所有的 Agent。
关于支持美国政府专有云这点我想说得是观测云刚刚取得了阿里云飞天专有云的兼容和适配认证,可以全方位的为所有的阿里云专有云用户提供服务。当然我们同时也支持包括华为云的 HCS 和腾讯云的 TCS。
Part 3: DASH 2024 Applications Roundup
APM 和持续追踪的增强
1、提升了 apm 的探针的配置简易度

这块用户体验部分 Datadog 加强了,观测云之前和 Datadog 一样是配置流,而不是 Newrelic Dynatrace 这种简易安装流的,当然看到 Datadog 妥协了,我们也会尽快妥协。(但确实这种建议流在实际使用中会有很多问题,更适合一开始获取用户的好感和简单应用,关于这一点后面会写文章展开解释)
2、了解服务的健康度

3、支持分布式链路追踪的瀑布流形态

这个能力观测云差不多两年前就支持了,很高兴看到 2024 年的 Datadog 才支持,而且居然整体设计和我们近乎一样。
4、分析运行时 Profiling 能力

目前观测云正在支持 Profiling 数据的指标提取功能,会增加更多的分析指标时间线(当然也会增加费用),至于后续是否要提供这样一个分析能力,我们会先对客户做一番了解(主要会增加不少成本),Datadog 当然是卖得非常贵。
5、Go 语言的 Profiling CPU Cost 显著下降 14%

观测云兼容 ddtrace 的 Profiling 的组件,如果用这个组件,天然会获得这个能力。
6、自动分析内存泄漏趋势的应用

非常好的能力,观测云将尽快跟进。
数据服务可观测
1、Data Jobs Monitoring 监控大数据传输处理

2、Data Streams Monitoring 支持更多的数据产品(Spark jobs, S3 buckets, Snowflake tables)

3、跟踪下游数据消费

4、通过 Datadog USM 自动发现 PostgresQL 和 Kafka
5、直接监控管理 Snowflake

6、 PG 的 Schema 可观测的支持

对于 Data 的整体监控观测方案,观测云确实落后 Datadog 不少,因为海外技术生态,不管数据库和大数据系统都相对统一,没有那么多的七七八八的开源分支,使得 Datadog 在这件事情上做起来相对标准,可以提供标准化产品。当然观测云本身也没在这部分做过多的投入,我们目前也在思考注入和 AutoMQ,Oceanbase 等中国自己的产品合作,共同打造一整套的面向数据处理过程的全面观测方案。
数字体验分析加强
1、更强大的前端性能分析辅助

观测云也在不断优化自己的 Rum 页面分析能力,这个能力非常好,我们会尽快引入。
2、使用真实用户流量数据来揭示代码中的问题

这又是一个非常提升前端工程师体验的功能,将所有 Rum 元素整合起来方便工程师分析,我们会考虑支持这个能力。
3、支持 Rum session Replay 的尾部采样
这个功能观测云早就支持了,可以通过 Datakit 对获取的 Session Replay 进行采样,比如只采集有错误的 Replay。
4、支持 Unity SDK

又一个观测云更早支持的能力,观测云早就支持了 Unity 应用。
5、混合编程应用的 Crash 报表整合

这块能力 Datadog 一致做得体验非常好,我们加油吧。
6、优化浏览器 SDK 的集成

这块网页版的 SDK 注入方便程度,观测云也非常简单易用。
7、通过 VScode 插件重现错误

又是一个宠程序员的功能,Datadog 真的非常宠程序员,相信大家对这个能力都很有兴趣,但公司愿意多付费吗?
DASH 2024: Guide to Datadog's newest announcements for security
Datadog 不断地补强他的安全能力,在这部分由于观测云目前没有任何进军安全的想法,故不做解读,有兴趣的朋友可以自己查看原文。
DASH 2024: Guide to Datadog's newest announcements for teams
服务可靠性与交付相关
1、团队 Dora 指标观测

这个功能也是治理方面的,算是一个集成 Dashboard,如果哪位有需要,观测云可以也提供类似的看板,当然也可以提供更多的看板。
2、整体 SLO 的观测大屏

这个能力同上,也是一个整合的 Dashboard,观测云针对 SLO 也有自己的看板,风格不同。
团队数据访问能力
1、Datadog CoTerm

Datadog 收购了 CoTerm 以后,将 CoTerm 的能力整合进来了,但第一个能力居然是协同的终端,同时相当于提供了一个类似堡垒机的能力。
2、跨组织的数据分析

这个能力观测云估计已经有了超过一年了,而且观测云还可以将不同组织的数据 union 查询,希望 Datadog 尽快跟上,毕竟已经开始提供 DDSQL 了。
3、Datadog App Builder

Datadog 的 Dashboard 可以通过 AppBuilder 构建交互式应用,关于这个能力其实观测云也有,当然用户体验稍逊,大家如果需要了解的话可以在观测云的 Dashboard 中选择命令空间,然后在观测云的 Func 中编写对应的执行函数,就可以将 Dashboard 化身为一个带交互的应用。
在线 sheet 分析能力

这是个非常友好的功能。支持将导出的 CSV 文件不用本地 Excel 分析,Datadog 提供了一个在线的 Excel 分格的 CSV 分析能力。
管理敏感数据


这两个功能我们去年就完全支持了。给观测云提出这个需求的是非常注重安全合规的世界五百强头部公司,他们同时也是 Datadog 的大用户。
总结
Datadog 作为目前全球监控观测领域的领导者,是非常值得观测云这样的后来者学习的,大家如果仔细看了 Datadog Dash 2024 展示的一些新的功能和改进后就会发现几个点:
Datadog 试图不断的将企业的 IT 团队的人通过一个平台整合起来
Datadog 非常注重讨好工程师,非常关注用户体验,传递了尊重每一个工程师的理念
Datadog 开始扩展自己的边界,包括没有提的安全部分
另外我们非常自豪的表示,观测云整体的设计思路和理念是和 Datadog 近乎一样的,所以才会出现很多功能甚至观测云更早的支持,因为我们相信很多功能需求是来源于最终用户的,我们面对的用户是一种用户,那么大家才会出现很多相似的想法。(包括去年 Datadog 发布的 Case Management 几乎和观测云的异常追踪功能是同月上线的)。
评论