AI 模型也需要资产管理,星环科技重磅推出 AI 运营平台 MLOps 星环科技 星环科技
随着企业信息化的提升,AI 模型也需要资产管理
数据资产管理作为规划、控制、提供数据和信息资产的一组业务职能,其概念已经被大众所熟知。而随着企业对 AI 技术应用的日趋深入,在面对多样的 AI 应用场景下,企业内部会产生大量由各类算法框架训练生成的 AI 模型,对于模型开发和模型应用管理团队来说,如何管理这些 AI 模型,也是眼下亟待解决的问题。
其实这些 AI 模型和企业数据一样,也是企业重要资产的一部分。对 AI 模型、算法进行有效的资产管理,有助于快速实现企业资源复用、降本增效的目标。为此,星环科技潜心研发了 Sophon MLOps AI 能力运营平台,致力于解决企业在机器学习模型开发及应用过程中遇到的痛点问题,提供标准化的 AI 能力运营服务。
各类模型训练框架太多?Sophon MLOps 帮您统管
Sophon MLOps 是星环科技基于云原生架构构建的企业级 AI 能力运营平台,聚焦于机器学习模型全生命周期中的模型管理、模型部署、模型监控预警、模型评估和模型迭代等关键环节。通过统一纳管、统一运维、统一应用、统一监控,赋予企业客户易用、高效且安全可靠的 AI 能力运营服务,协助客户规模化管理日益增长的机器学习模型,提升模型使用效率,降低模型集成管理成本,控制模型生产环境风险。
Sophon MLOps 为 AI 运营插上翅膀
Sophon MLOps 针对企业 AI 运营的痛点,围绕企业 AI 模型接入、运营管理、持续训练的全生命周期,分别提供规模化集成管理、高效模型推理、模型监控预警、模型性能评估、隐私安全保障等功能,为企业的 AI 日常运营插上翅膀。
规模化集成管理
●统一纳管多源异构的算法框架、模型文件和模型服务,支持 XGBoost、MLflow、TensorFlow、PyTorch、Scikit-learn、Spark-MLlib 等多种训练框架的模型,以及 Sophon Base 中通过可视化建模和编程式建模训练得到的模型;
●实时监控模型服务的运行状态,控制模型生产环境风险,如集群资源利用率、吞吐量、使用度、响应时间和访问记录等;
●支持异构运算加速,提供 GPU 虚拟化共享能力;
●规范化集成管理,统一部署大规模机器学习模型,大幅降低模型管理成本。
高效模型推理服务
●使用图形交互方式,流程化快速构建服务推理图,大幅节省了模型推理的配置成本;
●支持自定义配置包含多模型的复杂推理逻辑,通过定义数据前后处理、路由分发、结果整合等操作的逻辑,灵活适配各类业务场景;
●可视化一键部署模型应用,简化了模型部署的复杂流程。
模型服务发布
●零代码一键部署模型应用,仅需简单配置服务参数,即可快速生成服务 API;
●通过调用模型服务 API 接口,传入业务系统数据,实现模型实时预测支持自定义配置弹性伸缩策略,使用动态伸缩实现负载均衡;
●支持多版本流量分配策略,具备灰度发布,A/B 测试能力,有助于选出最佳效果的模型;
●充分支持按需分配推理图各节点的资源使用量,包括 CPU、GPU 和内存等
模型监控预警及性能评估
●实时监控模型服务的运行状态,控制模型生产环境风险;
●对比模型预测结果与线下真实数据,自动生成多维度性能评估指标的模型评估报告,为迭代优化模型提供重要参考依据。
隐私安全保障
●从安全维度出发,通过 Transwarp Guardian 和 Manager 提供多种用户权限控制,满足不同团队、不同用户角色层级对集群环境、资源,以及系统功能的限制需求;
●保障用户间私密数据(如数据集、模型文件等)的信息隔离;
●模型部署环节的关键节点自动触发审批流程,避免服务资源浪费。
精选案例——股份制银行的统一模型管理平台建设
案例背景
在金融科技行业,随着监管政策的不断收紧,银保监会于 20 年 7 月正式出台了《商业银行互联网贷款管理暂行办法》⸺要求商业银行落实模型从开发测试、评审、监测到退出的全生命周期的风险管理。因此,为满足监管合规要求,同时提升行内风险模型的管理效率,该行要求对模型全生命周期进行统一管理。
同时,随着行内业务的持续发展,逐渐积累了大量由各类算法框架生成的异构 AI 模型,且大多分散在不同的业务部门。如何兼容不同类型的模型文件,并统一纳管行内模型资产,成为了当前的重要挑战。而在部署应用模型时,需要配置大量的参数代码,且各部门之间的部署方式缺乏统一的流程,导致模型部署周期过长,配置成本增高的同时,模型应用的敏捷性价值反而降低了。
解决方案
针对以上痛点,该股份制银行使用 Sophon MLOps 搭建了全行统一的 AI 模型管理平台,快速接入行内积累的由不同框架或平台,训练生成的大量模型文件,规模化集成管理模型资产。
平台支持使用标准化流程,统一构建模型推理逻辑,并支持零代码一键部署模型应用;可基于云原生基础架构,实现对模型应用的统一运维;平台还提供持续监控所有已上线的模型应用的功能,并评估模型预测性能,确保结果准确且稳定;同时为模型退出或迭代优化,提供重要参考。
实施成效
1.异构模型管理:成功解决了该股份制银行异构模型的管理问题,集成了全行多种算法框架生成的数百个机器学习模型;
2. 效率与成本的双收:银行部署模型应用的平均时间由 1.5 天降至 0.5 小时,部署效率提升 71 倍;同时,配置成本降低近 80%;
3. 强大的吞吐能力:同时支撑银行上百个的模型的在线预测服务,单条数据实现毫秒级响应;
4. 加速模型迭代:打通了行方 AI 模型的全生命周期流程,使模型的平均迭代周期由 1 月降至 1 周。
评论