写点什么

系统风险处置

作者:agnostic
  • 2023-01-14
    上海
  • 本文字数:1521 字

    阅读完需:约 5 分钟

《风险管理》一文中,我们论述了项目风险管理的实践。在我们日常的架构活动中,除了项目的风险管理,还需要应对我们的业务系统在生产过程中的一系列风险问题。


和项目风险管理一样,对于系统的风险,我们也遵循风险识别-风险分析和评估-风险处置-风险跟踪和复盘的风险管理流程。


首先我们说风险识别。在生产过程中,可以将风险进行如下分类:

  • 系统风险:由 IT 系统 bug 引起业务持续性和正确性风险。通俗的说就是技术风险需要关注的稳定性和资金按群。

  • 业务风险:由于业务规则、流程等设计不合理引起的业务正确性风险,主要是和资金相关的风险和漏洞。

  • 操作风险:由于人为操作不当引起的一些 fat finger、fait transaction 等影响业务正确性的风险。

  • 政策风险:由于合规监管等政策的变化引起的业务持续性风险。

  • 环境风险:由于网络、生态等环境引起的业务持续性风险。


我们日常在架构活动中,主要关注的是系统、业务和操作风险。对于政策风险,有专门的合规和法务团队进行跟踪和应对。对于环境风险,由于 ESG 部门进行跟踪和应对。所以本文我们重点关注前三类风险。


对于前三类风险,虽然他们产生的原因各不相同,但是发现的手段是类似的,有两类发现手段:

  • 一类是比较传统的,基于指标和规则。不管是系统问题、业务问题还是人为的错误,都会在一定的指标上引起异常。比如:

  • 对于系统的稳定性,会在交易量、报错量、响应时间,或者在 OS/中间件的指标上体现出和正常情况下的差异。

  • 对于系统的正确性,会在一些时效、上下游核对指标、损益或费用等指标上出现异常。

  • 对于业务上的正确定问题,会体现在业务的损益、费用、收入,以及交易量上面体现出异常。

  • 对于操作上的 fat finger 这些,其实就是业务的正确性风险,通过上下游核对指标、损益或费用等指标上可以体现。

  • 对于操作上的人为虚假交易等,从操作人员的行为指标上,会体现出异常的行为。

  • 第二类是基于机器学习的方式,对于系统、业务和人员行为的指标,通过机器学习的能力,发现一些比较隐蔽的异常行为。

我们日常进行的系统监控、业务指标监控、人员行为指标监控,都是风险发现的手段。


发现风险之后,我们需要有一个风险事件库对于风险进行存储。风险事件库需要提供如下的能力:

  • 持久化能力:风险事件需要能持久化存储,并且有生命周期,从发现到处置中到关闭。

  • 可视化能力:风险事件需要能有 dashboard,可以查询和展示。

  • 集成能力:风险事件可以收工增加,也可以从其他风险事件库同步。


风险事件进入风险事件库之后,就进入风险的处置阶段。

风险处置首先是风险的分析和评估。这个步骤可以是自动化的,也可以引入人工操作。自动化根据规则对风险进行分级和关联处置手段。如果通过自动化无法明确,可以引入人工进行进一步分析。

风险处置的第二步需要对于不同等级的风险进行风险事件的触达。应对风险的人员不可能一刻不停的通过 dashboard 来盯盘,所以我们需要有各种的触达手段。根据风险等级的不同,可以通过邮件、短信、即时通讯、电话等手段触达到对应的处置人员。

第三,对于风险事件,我们需要提供系统化的处置能力。系统化处置能力可以形成预案。对于无法系统化处置的风险,需要有相应的 SOP 对于风险进行风险处置团队的组织、沟通和形成结论。

最后,对于系统化的风险处置手段,我们需要对相应的预案有演练的能力。这个就好比军队的演习和消防的演习一样,不打无准备之仗。演练有两种方式:通过线下环境和通过影子链路。


风险处置时候,还需要对风险进行跟踪和复盘。

首先,对于中高风险事件,需要保证所有的风险事件都被处置完成。对于低风险的事件,可以通过系统化的方式进行跟踪,并定期的将长期未处理的风险升级。

其次,通过风险的复盘,我们需要发现风险产生的结构化因素,并对系统、业务规则、业务流程中的薄弱环节进行系统化的优化和应对。


发布于: 刚刚阅读数: 5
用户头像

agnostic

关注

常识、KISS、高可用、合规架构、架构治理 2019-02-14 加入

二十年架构经验,互联网金融专业架构师。Open Group Master Certified Architect

评论

发布
暂无评论
系统风险处置_风险系统_agnostic_InfoQ写作社区