2023 首届服务韧性工程(SRE)论坛分会场:数据中心运维的新发展
2023 年 12 月 15 日,2023 首届服务韧性工程(SRE)论坛在杭州成功举行,大会邀请了来自通信、金融、医疗、制造行业等 100 余位 SRE 领域专业人士参加,本次大会特别设立了主题为“数据中心运维的新发展”的分会场,由广通优云和 SRE 专委会联合出品。邀请来自数据中心领域不同行业的产学研用的专家,就业务稳定性保障、智能化运维、可观测性等热点内容的技术发展及应用实践展开讨论。
SRE 结合 AIOps 实现智能运维
SRE 专委会发起人,雅菲奥朗咨询总监 刘峰,进行《SRE 结合 AIOps 实现智能运维》的主题分享,刘峰首先介绍到 AIOps 是将人工智能(AI)应用于 IT 运维的实践,并通过“观测、介入、行动”(OEA)循环的方式,来解决“运维超大规模云基础设施”所产生的问题,并认为 AIOps 对 SRE 团队、开发团队、DevOps 团队都会产生重要的影响;
同时,认为人工智能工程师的市场需求巨大,但是对于从业者的岗位技能要求也更高;最后在提到 SRE 结合 AIGC 实现智能运维的路径上,他分享了几个行业专家的观点,并认为 AIGC 给智能运维带来的通识能力和推理能力将极大提升运维生产力。
数据中心服务能力成熟度新标准简介及应用展望
广通优云副总裁兼首席架构师 张凯,进行《数据中心服务能力成熟度新标准简介及应用展望》的主题分享,作为数据中心服务能力成熟度国标修订工作组首席专家,张凯首先介绍了本次国标修订的主要内容,包括能力模型框架、能力全景图、评价模型框架等;
其次从数智运营驱动数据中心数字化转型角度,在整体规划上重点突出平台保障及目标拆解,并详细讲解了“故障发现、定位和解决”,“流自一体能力”,“CMDB 建设、运营、消费能力”等三大运维核心能力的建设要点;最后从自主信创、生态构建、标准认证、实践驱动等角度,分享如何驱动数据中心服务能力成熟度的提升。
涂鸦全球化稳定性保障
涂鸦智能基础技术负责人 金李东,进行《涂鸦全球化稳定性保障》的主题分享,金李东介绍到作为全球化的 IoT 开发者平台,涂鸦在全球拥有 6 个数据中心,面临多云架构、技术文化、时差问题等运维挑战,在 SRE 理念与文化建设上,他提到要从规范研发流程、应急响应机制、定期对抗演练等方面进行完善;
在保障系统的体系建设方面,重点介绍了如何建立严格的项目研发与变更流程、防护保障体系、三位一体的监控体系、基于云原生的自动驾驶等内容;最后从基础设施平台化、大模型 AI 方向两个方面展望了未来的发展。
平台运维是企业运维数字化转型最佳路径
广通优云知识运营中心资深售前专家 李庆焐,进行《平台运维是企业运维数字化转型的最佳路径》的主题分享,李庆焐介绍到从国内运维发展的历程及头部大行的生产实践,认为平台运维是运维数字化转型的方向,详细介绍了广通优云历经七年技术创新和沉淀,融合标杆用户的实践经验,打造的全新运维平台架构及应用生态;并重点介绍了行业级集约化能力、多云异构下的采控能力、数据治理和服务能力、流自一体能力等平台核心建设要点。
同时,也分享了包括基于应用资源图谱的故障诊断分析和快速自愈、应用全链路监控和洞察、自动化实现应用持续部署等运维场景应用,最后通过两家国有大行的实践案例,介绍了如何基于优云平台进行运维场景的创新共创和应用开发。
总结
运维数字化转型已势在必行,本次分论坛研讨会为数据中心运维领域的各位产学研用专家提供了一个交流平台,也希望可以为行业的技术发展与实践应用提供一些新的思考和方向。
版权声明: 本文为 InfoQ 作者【雅菲奥朗】的原创文章。
原文链接:【http://xie.infoq.cn/article/7c64cc94c81b8e4b19ec85c55】。文章转载请联系作者。
评论