写点什么

一不小心晋级“CCF 国际 AIOps 挑战赛”决赛?

  • 2022 年 8 月 16 日
    北京
  • 本文字数:1153 字

    阅读完需:约 4 分钟

近期,由天翼云研发二部云终端基础平台团队组成的“翼起飞”战队,在 2022 CCF 国际 AIOps 挑战赛中,以第三名的成绩强势晋级决赛,并将于 8 月 13 日参加最终的决赛答辩,作为唯一一支进入决赛的运营商队伍,此次晋级意味着天翼云的智能运维能力已处于业内领先水平。


国际 AIOps 挑战赛由清华大学联合中国计算机学会(CCF)共同发起,是智能运维领域的国际顶尖赛事,备受全球关注。今年,挑战赛以“微服务架构电商系统下故障识别和分类”为赛题,吸引了海内外 300 多支队伍参加,包括来自上海交通大学、华中科技大学近千名运维领域和 AI 领域的高手参赛。


此次赛题设计源于 AIOps 的核心场景——故障快速发现与诊断,比赛数据基于微服务架构的模拟电商系统,要求参赛选手在云环境下完成算法模型调优、线上评测等操作。


“翼起飞”战队成员一直深耕于云终端底层平台的研发工作,同时在云平台运维中积极践行 DevOps 及 AIOps 等理念,在自动化、智能化运维方面积累了丰富经验。


此次参赛是天翼云“翼起飞”战队针对比赛多模态数据,创新设计了基于多模态数据协同的异常检测算法,在复赛中一举夺得第三名的好成绩并进入决赛。


就具体赛题而言,本次比赛在测评阶段仿照生产环境监控数据的获取和检测模式,通过订阅 kafka 推送的实时监控数据流,要求选手自行设计快速和高鲁棒性的异常检测算法和故障分类算法,实现准确、高效、通用的故障检测和故障分类。


一方面,主办方提供了海量多模态监控数据,包括应用服务的动态拓扑、实时调用链数据、实时业务黄金指标、性能指标(来自于容器、操作系统和 JVM 等)和日志,其中指标名称与指标所在对象的组合约有 5000 多种,每天的数据约有 6G,与实际运维场景的数据量接近,同时指标数据每天有将近 800 万行,日志和调用链每天的数据量各有上千万行,进行实时异常检测难度极大。

部分指标和日志数据进行可视化后的样例图


另一方面,赛事组织方在短时间内集中组织连续多天的实时测评,最后根据各参赛队伍提交的结果,对故障检测延迟、故障检测准确率、检测召回率、定位准确率和分类准确率进行综合评分,这需要选手对算法方案持续进行快速迭代优化。


对此,“翼起飞”战队提出了一种多模态数据协同的检测模型,并采用了无监督和有监督结合的算法体系,结合优秀的代码工程实践以及多年云平台建设和运维经验,实现了故障快速发现与诊断,取得了卓越的实际效果,充分践行了“知识+数据+算法+算力”的 AI 3.0 理念,在海内外参赛选手中脱颖而出。


此次参赛推动了天翼云与业界优质研发团队及学术机构的切磋交流,同时也展示了天翼云多年的云平台建设和运维成果。基于此次赛事所创新设计的多模态监控数据分析和异常检测算法,也将应用到未来超大规模云平台管理和运维实践中。


对于决赛,“翼起飞”战队充满信心,将与赛事选手共推 AIOps 的落地应用,让先进的数字技术与方案早日普惠大众。

发布于: 刚刚阅读数: 4
用户头像

还未添加个人签名 2022.02.22 加入

天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。

评论

发布
暂无评论
一不小心晋级“CCF国际AIOps挑战赛”决赛?_天翼云开发者社区_InfoQ写作社区