数智先锋 | Bonree ONE 助力国金证券构建数智一体化可观测平台

“
国金证券通过 Bonree ONE 平台实现了一体化智能可观测,涵盖故障管理、业务监控、应急响应等关键领域,构建了端到端的全链路监控体系。平台建设规模庞大,包括 200+指标体系、1500+探针和 462 台主机监控等。落地应用场景广泛如场景主动监控、故障定位与复盘、服务治理和业务赋能。
”
——王计春|国金证券平台开发部经理
国金证券通过 Bonree ONE 一体化智能可观测平台了解业务系统全貌,包括业务内容、用户会话、调用链、指标、日志等,并形成上述内容之间的丰富的关系、如业务与用户会话之间的转化、用户体验与系统容量指标的关联,各系统之间相互的调用关系并体现到对用户层面的影响等,帮助运维和开发人员了解业务运营状态和系统健康状态。
项目背景分析
业务发展迅速,跨平台应用难以监控。微服务架构广泛应用,国金证券面临生产监控可观察性差、排障难、问题定位效率低等挑战。内部系统使用多种语言和框架,急需统一的全链路监控平台;现有的应用质量标准无法跟上业务发展的速度,导致巡检效率低下。
监控数据分散导致系统运维困难。国金证券内部存在多个独立的监控系统,数据各自存储,缺乏集中管理和复用机制。此外,数据质量参差不齐,缺乏统一的标准,导致监控效果不理想,难以有效支持系统运维和数据处理。
全链路智能运维监控体系的建设势在必行。前后端的全链路监控体系不健全,难以主动场景监控,以致排障难,无法根因定位;缺乏有效的智能告警,导致服务质量缺乏有效的评价标准和评价数据,服务治理与优化难落地。
应用场景

全方位监控与风险管控。国金证券通过博睿数据 Bonree ONE 一体化智能可观测平台实现数智一体化管理,构建了一个端到端可视化的运行监控系统,涵盖系统安全、应急指挥、监控大屏和容灾大屏等功能。平台通过实时监测安全风险、系统错误率、用户响应时间、交易量变化和资源利用率等关键指标,帮助实现全景监控与风险排查,确保系统稳定运行和资源合理分配。
精准故障定位与问题追溯。通过一体化智能可观测平台精确的故障定位与复盘机制,针对客户投诉,可快速检索用户 ID 并追溯其操作轨迹,及时定位页面卡顿、慢加载等问题原因;在网络请求监控中,针对缓慢和错误请求进行详细排查,并通过分段与分区域的方式精确定位问题。平台还能采集完整的崩溃堆栈信息,进行崩溃原因分析,并还原崩溃现场及崩溃前的用户操作轨迹。同时,平台支持回溯用户的全部操作路径,快速定位问题根源并优化用户体验。

打破内部数据孤岛,优化服务治理。Bonree ONE 助力国金证券解决各部门之间的数据制裂和责任推诿的问题,建立统一应用整合标准。故障发生时,使用一体化的可观测平台,可以在一个平台上反映所有业务和系统问题,并使用 AI 算法定位问题根本原因,有效的给出故障发生的见解,使部门之间的工作更有效的衔接,推动和优化服务治理。

项目成果与收益
实现关联分析
实现了 2000+指标、调用链 0~100%可调整的采样,以及 100%用户会话采集和 100%日志输出采集,并做到相互之间的关联分析。
准确的异常检测
自动阈值的异常检测做到 0 误告警。
深度根因分析
故障收敛率达到 90%,根因准确率达到 60-70%。
公司介绍
国金证券股份有限公司(以下简称“国金证券”或“公司”),是一家资产质量优良、专业团队精干、创新能力突出的上市证券公司。国金证券致力于为客户提供证券交易、投资银行、资产管理、财富管理等全方位金融服务,将公司建设成为“治理健全、管理规范、业务精湛、资质齐备、技术领先”的国内证券行业具有一流竞争力和影响力的上市券商。
评论