写点什么

LLMOps+DeepSeek:大模型升级一体化运维

作者:嘉为蓝鲸
  • 2025-02-21
    广东
  • 本文字数:7037 字

    阅读完需:约 23 分钟

LLMOps+DeepSeek:大模型升级一体化运维

直达原文:LLMOps+DeepSeek:大模型升级一体化运维


01.背景

蛇年伊始,DeepSeek 凭借其卓越表现火爆出圈,让 AI 大模型瞬间成为街头巷尾热议的焦点,也让大众重新燃起对 AGI(通用人工智能)“平民化”的信心,DeepSeek 通过先进的模型架构,带来的高效率与低成本优势,加快了应用场景的百花齐放。

嘉为蓝鲸早在 23 年初就接入 GPT 等大模型在运维领域中孵化应用场景,而到本次 DeepSeek 评测和应用,又增加了更多实践。那怎么用好 DeepSeek 服务于运维,我们在设计上始终秉持智能化运维进程里面的两个设计原则:平台化和场景化。

  • 平台化:不只是提供工具,而是赋能工具的构建能力,无论从数据开发过程、机器学习模型开发过程,还是大模型智能体开发过程,提供的是兼容各类场景的开发平台。

  • 场景化:数据、AI 不能脱离运维场景进行,如果没有实用化、工程化的落地,那么数据 AI 的应用也只是图个新鲜,因而所有的能力都会以能力调用的方式集成到产品中。


02.LLMOps 平台+DeepSeek 优势

嘉为蓝鲸运维大模型开发平台(简称 LLMOps 平台)致力于为运维全生命周期提供卓越的运维工具支持,为业务通用 AI 场景提供工具支持,为满足不同业务场景需求提供自定义开发扩展能力。

LLMOps 平台作为运维大模型开发平台,分为两个模块:

  • 大模型服务模块:提供跨公私域多种大语言模型接入(内置 60 多种常见模型适配器,也包含 DeepSeek 各类尺寸的接入),为上层工具和应用提供统一的使用和运维接口,并提供权限、审计、监控、配额限流等管理能力,LLM 资源管理则提供了 AI 场景建设过程中用到的各种资源、工具的支持。包括知识库管理、工具管理、智能 Agent 管理、Prompt 管理等。

  • 大模型开发模块:提供了 LLM Agent Framework ,这是一个 LLM 智能 Agent 应用开发框架,提供单 Agent 智能代理与基于 Graph 编排的多 Agent 智能代码构建支持,使用 Graph 组合 Agent, Chain, Retriever 等各类子组件,编排业务流程,解决复杂多变的业务问题,同时最大程度保留可复用性。

作为整个嘉为蓝鲸一体化运维体系的一部分,与一体化运维系统之间通过功能调用,以及数据和知识接入,形成有机互动,实现更为丰富的场景化应用。


在运维领域应用,我们评测了各个国内外大模型的适用场景和落地效果,DeepSeek 相比其他大模型,的确让人眼前一亮:

  • 算力效率革新:DeepSeek 通过多模态深度 Transformer 架构,以及动态稀疏激活机制,实现了万亿参数级的高效推理,能对文字、代码、数学符号等不同类型文本进行统一理解与生成。在运维领域,解决了不突破企业数据安全限制的要求下,实现低成本的高质量大模型的部署和应用。

  • 深度洞察:DeepSeek 的对齐强化学习框架则刺透人类意图的次元壁。通过海量高质量数据锻造的语义理解锋刃,在对话场景中实现 94.3%的意图识别准确率,非常适合作为运维领域全能助手,识别用户的意图,然后调用私域知识或运维工具获取信息,精准解答用户问题。

  • 持续进化基因:DeepSeek 通过持续预训练框架使模型具备“细胞级”迭代能力,加上低训练成本优势,可以在智能运维场景落地过程中,持续消费企业积累的知识,进行模型的训练微调,不断进化生长,成为企业“量身定制”的智能运维专家。


LLMOps 关键产品功能示意:

  • 多模型接入:支持 60+模型接入框架,包括私有化部署和托管接入方式,同时通过 LLM Gateway 屏蔽不同 LLM 模型之间的差异,为上层应用提供业界标准的 OpenAI 协议 API 接口,并提供权限、审计、监控、配额限流等管理能力。

  • 私域知识接入:进行 RAG 预处理,并支持文件上传、手工录入、网页知识三种形式;可在聊天过程中可指定回复引用知识库。

  • 支持工具开发:创建/编辑工具,填写工具的基本信息,调用接口和请求参数;可在会话和智能体开发中调用。



  • 提示词与角色定义:创建 prompts 并支持在线调试,基于 prompts 设定角色,并选择不同大模型进行联调,支持接口及开发框架调用。

  • 智能体开发框架:提供智能体开发框架,包括单 Agent 智能代理与基于编排的多 Agent 智能代码构建支持。

  • LLMOps+DeepSeek 问答:


03.DeepSeek 在智能运维场景应用

嘉为蓝鲸探索大模型,包括 DeepSeek 在智能运维场景的应用,仍然从一体化运维的业务视角出发,不是从单点场景视角提升,而是业务闭环视角整体提升。

企业 IT 运维一体化场景涵盖了多个运维活动,日常维护、变更发布、故障应急、服务响应、优化提升、安全管控等均需要跨多个运维领域完成,场景驱动了各个业务域之间的业务集成和技术集成设计。

以典型的事件生命周期管理为例,基于大模型重构提升场景如下:



应用场景清单:



场景详细描述:

1)产品使用助手

内容描述:

IT 运维团队逐渐向 SRE、平台工程转型,过程中依赖各种运维工具体系建设和推广。每次运维新产品发布或者产品功能更新,都需要花费大量时间组织用户培训和使用答疑,费时费力。借助大模型如 DeepSeek 强大的推理能力,结合产品使用手册,可以低成本实现面向用户的产品使用助手,主要包含如下功能:

  • 知识管理能力:支持手动上传各类格式的文档知识,如 md、doc、pdf、excel、ppt 等;支持和企业内已有的知识库对接,并能同步更新。

  • 知识检索能力:支持通过向量相似度或关键词等多种方式进行知识检索和知识召回,如基于标题或特定字段的向量召回或全文检索匹配召回,再根据多路召回的知识进行去重和排序,选择最相关的知识片段,输入给大模型进行上下文学习和总结,旨在优化信息检索的覆盖率和精确度。

  • 大模型提炼总结:遵循最佳提示词框架,与大模型进行交互,把提示词模板和检索到的知识片段按照特定格式发送给大模型进行总结,利用大模型强大的推理能力,返回符合用户意图的问题回复。

  • IM 工具集成:支持和企业内已有的 IM 工具进行集成,如企业微信、钉钉、飞书等,进一步提升产品使用助手的用户覆盖,降低用户使用工具的门槛。


价值收益:

  • 新产品或新功能推广效率提升显著。

  • 功能使用类 ITSM 工单降低 50%以上


技术实现:

  • 基础大模型/提示词工程/知识库/RAG。


2)IT 观测助手

内容描述:

IT 监控工具是 IT 运维的第一个建设工具,作为运维人员的“眼睛”,IT 监控在“数字化”、“云原生”、“信创”的大趋势下正在向“可观测”领域持续演进发展,而当大模型来临之际,可观测也需要具备各种人工智能能力,主动性地提升 IT 人员在故障发现、故障定位、故障处置上的效率和质量,从而更好地保障业务正常运转。

借助大模型的能力,可结合 ChatOps 建设 IT 观测助手实现以下功能:

  • 观测智能问答:借助大模型语文识别, 提供私域和公域知识的智能问答。

  • 告警关联数据提取:当发生告警时,观测助手可主动提供此对象以及与此对象相关的其他对象的指标/日志/Trace/拓扑等信息,供 IT 运维人员进行故障诊断定位。

  • 推理式告警根因分析。观测助手可基于应用横纵向拓扑信息提供根因分析推荐能力。

  • 告警处置引导及操作执行。观测助手可基于根因分析和故障决策树的定位能力,以及应急处置能力提供引导式故障处置执行。

  • 告警处置过程内容总结。针对告警的定位、协同过程、定位和处置、业务验证结果形成告警处理事件总结。

  • 告警处置方案自动回写知识库并更新:针对告警的发现、定位和处置结果自动回写到历史事件知识库中,以供下一次的故障处置提供参考。

  • 监控告警插件编写:基于公域知识提供各种组件的监控指标定义和插件编码,自动生成相应监控告警插件。

  • 监控、告警策略编写:基于公域知识提供和自动生成各类组件的告警阈值策略。


价值收益:

  • 持续增强第二代监控——可观测的自动化监控告警的推广和覆盖的运营能力。

  • 提升从告警发现、故障定位、故障处置的效率。

  • 将纷繁复杂、持续迭代的运维经验和能力沉淀到工具和平台上,以“智能”替换“专家”,形成 IT 运维的核心能力建设。


技术实现:

  • 结合 ChatOps 技术提供人机交互。

  • 基于 CMDB 与 APM 的横纵向拓扑构建的知识图谱算法提供故障定位能力。

  • 基于 LLM 的语义识别/Functioncall/知识库提供高效的引导式故障处置能力。

  • 整合 CMDB、ITSM、自动化、可观测、数据与 AI/LLM 提升 IT 故障发现、协同、定位、处置等业务连续性闭环管理能力。


3) IT 服务台智能助手

内容描述:

随着企业信息系统的增多,IT 服务请求数量同步增多,单靠增加人力的方式来保持服务台的正常运营变得非常困难,从而引发客户满意度降低、运营成本居高不下等问题,因此如何提升 IT 服务台运营效率成为亟待解决的问题。

结合对服务台工作场景的分析,借助基于大模型的 IT 服务台智能助手,可以大幅提升服务台运营效率:

  • 智能问答:提供更准确的咨询问题答复,减少到服务台坐席的咨询请求量。

  • 智能提单:引导用户自助提单,以减少服务台代提单工作量。

  • 智能派单:结合一、二线处理人员的工作负载,智能派单至负载最低的处理人员,减少坐席人工识别和派单工作量。

  • 智能推荐:在接收到服务请求的同时,智能助手根据对工单内容的理解,更准确地推荐知识库中沉淀的解决方案,从而提高请求的处理效率。


价值收益:

  • 提高服务台运营效率。

  • 提升客户/用户满意度。


技术实现:

  • 基于即时通讯、大模型、RAG、知识库实现智能问答。

  • 基于 LLM 的语义识别/Functioncall 实现智能提单。

  • 结合运维人员工作任务数据、相似任务用时等进行工作负载判断。

  • 基于大模型、RAG、知识库实现智能问答。


4)IT 知识库智能助手

内容描述:

经验总结与知识沉淀非常重要,常被称为企业运营的“第二大脑”。但知识管理的建设一直是一个让管理者头疼的问题,无法投入专职的知识运营人员,运维人员忙于事务也很难兼顾知识的沉淀。没有知识的知识库,其功能再丰富也没意义。如今借助基于大模型的智能知识助手,让低成本的知识运营变得可能:

  • 智能总结知识:结合工单的详情与处理过程、沟通评论、即时聊天记录等日常解决用户问题的过程数据,借助大模型的分析总结能力,即时或定期进行自动化的知识总结并录入知识库。

  • 智能检索知识:提供更准确、更易维护的知识检索模式。相比传统知识检索,基于大模型的智能检索方式可以自动学习知识库内容,无需手动标注规则。新知识入库后,模型通过向量化实时纳入检索范围,同时结合用户反馈(如点击率、采纳率)自动优化检索排序(如将高频采纳的解决方案置顶)。


价值收益:

  • 提升知识沉淀效率和质量。

  • 降低知识运营的人力成本。

  • 提高知识消费的便捷性。


技术实现:

  • 通过 API 及对应 IM 工具的 SDK 获取过程记录,结合大模型提示词进行知识总结


5)CMDB 智能助手

内容描述:

CMDB 作为运维管理的“基石”,其数据的质量非常重要。借助 CMDB 智能助手,可以让配置数据的接入和消费环节更便捷与高效,以助力 CMDB 的数据治理与运营。

  • 智能采集开发:在已有的配置采集插件协议的约束下,通过自然语言提高采集插件的开发效率,包括插件代码生成、插件代码检查等。

  • 智能配置查询:以提示词方式便捷对配置数据进行消费,包括影响分析、路径查询、关联查询等。

  • 智能拓扑生成:以提示词方式便捷生成配置拓扑图。

  • 智能运营报告:以提示词方式便捷生成运营报告,减少手工统计与排版工作。


价值收益:

  • 降低配置自动采集门槛,提高自动化采集率。

  • 提高配置数据的消费便捷性

  • 降低配置管理的运营成本


技术实现:

  • 开发协议、查询协议、低代码协议与大模型结合,实现自然语言与技术协议的转换


6)IT 工单智能助手

内容描述:

工单作为工作协同的信息载体,是团队在日常工作中频繁操作的对象。如果给工单加上“大脑”,对团队协同的效率将会大幅提升。IT 工单智能助手,可以让运维工单更智能,运维工作更省心。

借助大模型泛化能力,自动生成与业务相关的关键字和正则表达式,替代人工质检实现全自动化工单转入转出质检。

利用大模型去提取关键参数并进行参数标注化转义,并将查证后的内容自动回复,实现工单智能化查证回复。

构建投诉报告生成智能体,基于手机号查询多平台多类型投诉信息,1 秒自动生成投诉报告,极大提升报告编写效率。


价值收益:

  • 工单流转问题的损耗降低

  • 工单平均处理的时长减少

  • 运维工作协同的效率提升


技术实现:

结合大模型/Functioncall、知识库实现与第三方质检接口集成。


7)应急智能助手

内容描述:

应急预案是 IT 应急管理中最核心的资产,如何创建全面且指导性的应急预案是应急管理中最核心的工作,应急智能助手能基于文字描述识别用户意图,结合历史应急预案和应用架构手册,辅助生成应急预案。

面对应急故障事件,可以按照企业 IT 应急报告内容和格式要求,基于应急事件全生命周期记录,辅助生成应急故障报告

同时应急智能助手,能支持对话窗智能化查询应急预案/场景,应急事件总结/演练计划,通过对话发起应急演练,启动应急事件,全面提升应急交互模式。


价值收益:

  • 提升预案准确性和有效性。

  • 提升报告生成效率。

  • 极大提升 IT 应急效率。


技术实现:

  • 将应急预案库和应用架构向量化存放在知识库,利用 RAG 和大模型提示词能力生成应急预案。

  • 利用 Functioncall 构建应急报告数据查询工具 Tools,在调用大模型提示词对应急数据进行润色生成符合格式的应急故障报告。

  • 通过意图识别实现智能路由,支持多场景的应急需求。


8)变更发布智能助手

内容描述:

  • 当应用系统变更异常时,能够结合业务系统变更历史信息和完整的应用拓扑信息,快速给出变更异常影响面分析;并结合运维大模型领域知识,对异常报错进行分析,辅助变更人员快速定位根因。

  • 通过对话框构建变更智能问答助手,运维人员可以通过自然语言查询所有变更记录,同时能辅助生成变更周报/月报。


价值收益:

  • 快速识别变更影响面,提升变更异常分析效率,降低变更影响。

  • 提升变更周报月报的质量和生成效率。


技术实现:

  • 将大模型和小模型技术结合,实现对变更异常的多维度分析,实现变更异常快速定位。

  • 构建多个变更智能工具 Tools:变更记录查询/报告生成/通识变更问答,通过意图识别模块导航到对应的智能工具。


9)应用巡检智能助手

内容描述:

面对多种巡检类型,需要支持命令行、API、界面内容等多种数据源,利用应用巡检智能助手进行统一分析和巡检判断,生成统一的巡检报告,解决单一对象人工巡检问题。

巡检结果智能分析,巡检过程中出现的重点指标、可疑进程、意外事件,通过应用巡检智能助手,从横向纵向等多维度对进行结果进行深度分析,并支持多范围多对象多领域的统计展示。


价值收益:

  • 支持异构应用的统一巡检,将运维人员从高频人工巡检中释放,提升巡检的效率和准确性。

  • 支持自然语言发起巡检查询结果,提升应用巡检体验。


技术实现

  • 利用大模型多模态能力实现界面内容自动巡检,结合自动化工具,实现传统界面内容的自动化巡检。

  • 结合大模型运维通识问答和 RAG 知识库能力,实现对巡检指标外的异常结果分析和建议。


10)智能编码助手

内容描述:

在代码辅助编写场景,我们通过 BKGPT 插件对接大模型和 IDE,让开发者可以在编程工具里闭环信息检索的过程,大大提升了开发问题查询效率。其次,我们提供了 BKCodeAI 插件,可以实现根据注释中的需求描述,进行代码生成和补全,当前已经支持函数级代码生成。

另一方面,在 git push 时,会自动触发 AI CodeReview 任务,CR 任务将异步执行,不会阻塞 push 操作,CR 任务执行完成后会在 IDE 弹窗提醒 CR 详情链接。


价值收益:

  • 与编程 IDE 结合,提升脚本编写、工具开发效率。

  • 辅助开发主管进行代码审查或者自动进行脚本出错分析,提升代码质量。


技术实现:

基础大模型/文本生成/知识库/RAG/IDE 插件。


可观测助手示例:

告警关联知识推荐:“小鲸”观测助手可基于知识库,可以根据告警事件内容结合知识库找出相关联的知识,并给予解决方案的推荐。



内置运维知识库,无需整理也能直接使用;可批量导入知识库文件,基于用户历史经验提供更丰富的解决方案;告警产生后根据算法训练的结果,匹配知识库里的解决方案。知识推荐效果如下图:



知识库智能问答:运维人员通常通过经验或查找资料来处理告警事件,效率低下且耗时。可以将问题抛给“小鲸”,基于 LLMOps 直接提供解决方案推荐、正则匹配规则编写等针对性回答。



通过全局划词问答或者右下角的机器人图标入口,均可向“小鲸”询问,无需切换工具。无论是技术解释、命令用法,还是故障排查,“小鲸”都能即时提供专业解答,大幅提升工作效率。实现效果如下图:




告警处置引导:结合预测性对话流与大模型,“小鲸”观测助手能够实现对话智能引导,引导用户完成智能提单引导、智能故障处置引导等场景:根据故障排查的场景,预设引导性场景,智能机器人识别关键字以后进入引导场景,确保问题能够迅速被识别和解决。



实现效果如下图:




04.前景展望

DeepSeek 这一波平民化,除了带来推理能力和性能瓶颈突破外,最核心的是可以进入“千家万户”,使得各行业和领域使用前沿模型变得更为简单。大模型在运维领域的应用前景,我们认为这是一个改变运维人员和运维对象交互、实现 AI 大规模落地普及的时刻,未来发展,我们有如下思考和展望:

  • 基于一体化运维业务的运维智能体会爆发式增长:基于低成本高效率的大模型,可以把各个人机交互的运维场景再做一次,再做一次是基于多智能体编排的模式,生成更多整合应用,且与一体化运维是完整联动的,不只是单个场景的提升。

  • 基于机器学习算法+大模型的融合场景更优:机器学习算法对于数据处理有天然优势,大模型对于语义识别和逻辑推理有天然优势,两者相结合,可以在故障分析诊断层面、智能工单的相似度分析和智能回复层面等有更好地融合场景落地。

  • 大模型应用开发平台共建生态会成为主流:不只是基于原生大模型的问答应用,而是知识库、工具、编排、智能体、统一网关的整体建设,构建可持续建设的体系,会成为生态模式,客户及合作伙伴都可以有更大的想象空间。

  • 自适应学习与知识演化:系统能够根据环境的变化和数据反馈,自动调整自身的行为、策略或参数,以及随着实践、技术发展和经验积累而不断更新、优化或重组知识,运维智能体能够更灵活、高效地应对复杂的运维需求,在大部分相对标准的运维场景中,实现智能决策执行。

用户头像

嘉为蓝鲸

关注

研运至简,无限可为 2020-08-13 加入

蓝鲸智云一级技术合作伙伴,中国领先的研发运营一体化解决方案提供商

评论

发布
暂无评论
LLMOps+DeepSeek:大模型升级一体化运维_运维智能化_嘉为蓝鲸_InfoQ写作社区