【基金行业】一体化运维自动化运维场景实践

官网原文(免费申请演示):【基金行业】一体化运维自动化运维场景实践
01. 基金行业经营机构管理办法解读
随着科技的迅速发展,基金行业已经成为一个数据密集型和科技驱动型的行业,加之近年来外部网络安全威胁的加剧,行业面临着严峻的信息安全风险挑战,业务系统的运行维护能力直接涉及到客户资产的安全和整个金融市场的稳定。
因此中国证券监督管理委员会面向境内所有为证券基金业务活动提供信息技术服务的机构发布了《证券基金经营机构管理办法》,主要从重要信息系统的开发、测试、集成及测评,以及重要信息系统的运维及日常安全管理两方面提出了管理要求与办法。其中针对“重要信息系统的运维及日常安全管理”部分的管理条目如下,涉及到监控告警、系统变更、应急预案管理与应急处置、基础设施运维等场景:
02. 基金行业运维挑战及应对策略
1)面临挑战
业务系统复杂度高:基金业务交易链路长、环节多,整个交易链路包括终端、运营商网络、渠道系统、资金存管、柜台系统、报盘系统、交易所网关,成交回报等环节,每个环节都需要保持高效、稳定。同时,业务系统具有传统架构与分布式架构、外部采购与自研开发方式并存,实时性、准确性要求高等特点。
系统架构转型:随着业务的发展,系统架构从传统的单节点架构逐渐转变为分布式架构和集群架构,技术变革的同时,带来的是系统运行不稳定因素的累积。分布式架构将一个单体系统拆分为多个服务,数据库进行多个维度的拆分,使运维面临服务层次、调用关系、系统状态更加复杂的挑战。
监管政策加强:监管机构对开市期间的核心交易系统的故障有一个 5 分钟的红线,系统不可用超过 5 分钟可能面临严重的处罚。一次较大的业务事件就有可能影响公司的分类级别,甚至影响现有业务及新业务的开展。
业务增长快速:随着基金业务的迅速发展,IT 的规模也越来越大,原来竖井式的 IT 系统管理和运维平台工具建设的模式越来越不适应实际需求规模的扩大。业务增长导致单一运维工具已无法满足用户需求。
技术更新迭代快:金融科技的快速发展,新技术如云计算、大数据、人工智能等不断涌现,运维人员需要不断学习和适应新技术。同时,系统架构由集中式向分布式架构转型,IT 基础设备的更新换代也对运维人员提出了更高的要求。
用户体验要求高:用户对券商移动端应用的兼容性、功能性、性能效率等众多维度产生更高要求。交易系统的响应时延和稳定性直接影响用户的利益,运维人员需要确保系统的稳定运行,提升用户体验。
2)应对策略
构建统一的运维管理平台:统一纳管资源,IT 基础资源的分配、回收、日常操作和监控通过平台自动化完成。构建集中监控、统一自动化、CMDB(配置管理数据库)、RPA(机器人流程自动化)、运维大数据等各类运维工具平台,打通各类运维工具平台的信息孤岛和操作限制。
推进自动化、智能化运维:应用自动化工具替代手工操作环节,推动运维研发一体化。利用大数据、人工智能等技术,实现根因分析、容量预测及智能知识库的建设,提升运维效率。例如,通过自主设计智能化运维平台,实现了 IT 运维、大数据及 AI 算法的有机统一。
加强运维人员培训和能力建设:持续优化组织能力建设,主要以运行保障、业务可用性连续性管理、资源管理、信息安全等为基础,扩展到流程经理、运营分析、IT 服务、系统退出、运维开发等横向能力。建立学习型组织文化,推动组织个人能力的持续提升。
完善故障预防和应急响应机制:通过盘前巡检,做好开市前的各项准备状态检查;通过业务感知,先于用户发现问题;通过混沌演练,提前识别系统风险并进行改进。严格控制变更和操作风险,结合监控和自动化工具,及时发现并处理系统故障。
采用先进的运维理念和方法论:吸收 DevOps、AIOps、SRE、ITOA、ITIL 等方法论,结合“连接、数据、赋能”思维,由被动的流程管理向主动型的 IT 服务、IT 运营转变。例如,SRE(Site Reliability Engineering)作为创新型运维方法论,可为基金行业分布式核心系统运维人员提供一种新的转型思路。
加强与业务部门的沟通协作:运维人员应深入运维一线,了解业务需求和用户需求,与业务部门保持密切沟通,共同制定合理的运维策略。通过构建全连接平台,实现高效协同,确保运维工作能够更好地支持业务的发展。
03. 自动化运维经典场景实践
对于 IT 业务规模不断扩大的基金行业来说,尽早开展自动化运维建设,能够明显提升运维平台以及各类运维场景的建设效率与运维团队的工作效能,减轻运维人员工作压力、降低人为操作风险,同时释放运维人员精力、提升岗位价值,更好的应对各类挑战。
支撑自动化运维的主要包括通道能力、脚本原子能力、流程编排能力、场景化能力,其中场景化能力是决定自动化运维使用效果的关键因素,运维各部门人员将不再直面繁琐的脚本与流程编排,而是直接获取场景化中可持续复用的原子能力与规范化的任务模版发起自动化任务,降低自动化能力的使用门槛,并基于场景形成闭环管理。
本文将针对自动化运维经典场景进行相关内容介绍与实践分享。
1)IT 巡检自动化
定期对 IT 系统的硬件设备、数据库、中间件、主机等进行检查,以确保系统的正常运行和及时发现潜在的问题。巡检可以作为监控的补充,发现一些监控工具难以发现的问题。但人工巡检存在不标准、不规范、不及时等问题且耗费运维人员大量时间精力,而通过自动化巡检代替人工巡检则可以解决人工巡检的弊端,定期自动巡检生成报告并及时发现异常情况。
2)资源交付自动化
IT 资源的管理分散在不同的平台并且由不同的部门进行管理,当产生一个资源申请需求时会面临跨系统、跨部门的复杂协作,同时需要层层严谨的评估审核,导致整个资源交付的周期较长,无法满足敏捷化的管理模式。若通过自动化+ITSM流程相结合的方式,则可以将整个过程实现规范化管理并大大减少交付周期。
3)补丁安装自动化
由于严格的监管要求,基金公司的补丁安装工作任务相对较为繁重,人工打补丁的方式操作耗时长,跟踪统计困难,导致效果难以保障。通过自动化+ITSM 流程相结合的方式,可实现补丁安装责任到人,分门别类,批量安装,同时便于统计复盘,能够不断减少在补丁安装上的人力投入,实现闭环管理。
4)应用发化自动化
在微服务及容器化技术大规模应用以及系统双活改造的背景下,传统的应用发布变得难以适应生产需求,每一次发布都面临着大量的需求对接、节点梳理、配置审核等工作,复杂场景下的发布更是需要投入大量人力进行保障。通过应用发布自动化+ITSM 流程相结合的方式可将各系统常用的发布场景固化为发布任务模版,在每次需要发布时进行微调、检查、固定流程审批后即可进行快速、准确的发布。
5)灾备切换自动化
当前基金行业面临的诸多监管要求中,对于灾备切换的 RTO 以及定期演练次数均有一定要求,而灾备切换的线下管面临着制度文件维护难、手工切换风险大、切换过程不直观、演练报告不完善、部门间协作效率低等问题。通过灾备切换自动化+ITSM 流程相结合的方式,可解决线下管理的各类痛点,提高灾备切换的执行效率,提高整体管理水平。
6)应急管理自动化
除了灾备管理之外,应急管理是一个范围更大的课题,随着外部网络安全威胁的加剧,基金公司需要防患于未然,建立各类场景下的应急预案。与灾备切换同理,线下管理方式存在诸多弊端。通过应急管理自动化+ITSM 流程相结合的方式,能够有效的对场景、预案、制度文件、组织人员、应急响应、应急任务、应急报告进行管理与能力持续提升,同时充分联动“监”(可观测)、“管”(CMDB、ITSM)、“控”(自动化)能力,让 IT 应急管理逐步朝“1-5-10”(1 分钟发现、5 分钟定位、10 分钟恢复)靠近,实现事前、事中、事后的体系化管控。
04. 落地案例实践参考
某头部基金公司结合 ITSM 流程的自动化运维建设实践分享:
该企业 IT 部门通过引入蓝鲸平台,将平台作为整个运维体系的入口和枢纽,通过流程把人、工具与场景进行串联,实现资源交付、变更部署、主备切换、日常运维等运维场景的自动化以及闭环管理。
自动化运维业务架构分为基础设施即对象层、活动即原子层,场景层即 SaaS 层以及角色层,构建服务于角色、注重用户体验、合规安全,同时可持续横行、纵向扩展的灵活架构,满足当前基金公司敏态发展与管理的需求:
自动化运维技术架构如下,通过平台层提供的通道能力、运维 PaaS 能力、调度引擎能力、流程引擎能力、一体化集成能力不断沉淀自动化原子、标准运维流程、场景,满足上方的业务架构需求,将自动化能力转化为公司宝贵的 IT 资产:
1)建设成果 1:ITSM 服务目录的逐步完善与推广,6 大类 30+流程
以资源交付流程为例,通过 ITSM 流程引擎,实现了复杂的多资源交付,将分散的资源管理平台通过流程进行串联并实现自动化执行,将此类需求的周期从按周缩短到按小时交付。提高了交付效率的同时也满足了标准化、安全、合规、可追溯的需求。
2)建设成果 2:实现 150+容器应用发布自动化,覆盖投研,电商,内部管理等业务
在应用发布自动化场景中,支持统一管理程序包、配置文件、模板集、Helm、SQL 包等不同类型的介质,支持可视化管理介质的版本。同时将 CMDB 中的应用资源拓扑、应用制品、基础资源(主机、容器)进行关联绑定,保障了在发布任务配置时的数据完整性与准确性,极大的减少了人工梳理与线下核对确认的时间。
基于自动化平台的分层技术架构,发布任务由两层引擎进行编排支撑,第一层编排引擎为平台底座提供的作业执行、单主机上的执行流程编排能力,第二层引擎专注于应用发布场景,提供应用发布策略的执行编排,包括多集群多应用发布、双中心发布、灰度发布、蓝绿发布等。实现了操作与策略分离,提高了操作层与执行层的标准化、高可复用性、高可维护性,将发布周期从天缩短为数小时。
3)建设成果 3:流程、自动化能力、运营能力融合打通,3 大自动化运维场景实现管理闭环
作为管理者往往无法事无巨细的关注到每一个执行细节,但如果自动化只做到执行完成即结束则无法满足上层管理需求,因此该案例在打造每一个自动化运维场景时均将管理需求考虑其中,不但包括场景化的事前配置与事中执行,也加入了事后运营的相关能力,包括执行报告、执行历史、统计分析报表、运营分析指标等。
后续该企业将基于蓝鲸一体化运维平台,持续扩大已建设内容的使用范围,包括 ITSM 流程的扩展、应用发布自动化覆盖更多业务系统等,同时将新增基线核查、应用巡检、资源交付、灾备切换等自动化运维场景,实现敏捷化与闭环管理。
05. 为什么选择嘉为蓝鲸自动化运维中心?
在信创战略深入实施的今天,选择一款真正懂中国政企需求的国产自动化运维系统,已成为保障数字化转型成功、提升 IT 自主可控能力的关键。嘉为蓝鲸自动化运维中心,正是这一领域的可靠选择。
选择嘉为蓝鲸自动化运维,不仅是选择一款工具,更是选择一份保障与未来:
安全可控,深度适配国产化生态:嘉为蓝鲸积极投身信创生态建设,全面兼容主流国产软硬件,从芯片、操作系统到数据库,确保企业在数字化转型浪潮中行稳致远。其平台化的设计,帮助企业构建起自主可控的自动化运维能力底座,有效规避“卡脖子”风险。
权威认可,彰显行业领先地位:产品的卓越价值备受权威机构肯定。2025 年 5 月,嘉为蓝鲸自动化运维中心成功入选“广东省软件风云榜 2025 年优秀行业应用软件产品和解决方案”,彰显了其在技术先进性和行业应用深度上的领先地位。同时,其联合客户公司中铁建资产打造的方案,成功入选“2024-2025 央国企数智化转型典型案例”,证明了其在赋能大型国央企核心业务升级方面的卓越成效。
久经考验,服务众多头部客户:嘉为蓝鲸自动化运维中心的服务能力已在金融、能源、通信、交通等关键领域得到最严格的实践验证。我们自豪地服务于包括数研所(中国人民银行数字货币研究所)、深圳供电局、北京移动、天翼安全、大商所(大连商品交易所)、中信证券、华夏基金、兴业银行在内的众多头部客户。这意味着,无论您的企业面临多么复杂的 IT 架构与严苛的合规要求,嘉为蓝鲸自动化运维中心都拥有成熟的实践经验为您保驾护航。
对于正在寻求一款真正可靠、高效且深度适配国产化环境的自动化运维系统的企业而言,嘉为蓝鲸凭借其过硬的技术实力、顶尖的行业认可和丰富的头部客户实践,无疑是您的理想选择。







评论