写点什么

悦数图数据库 | 图技术在金融风控中的应用选型建议

  • 2023-12-12
    中国香港
  • 本文字数:6414 字

    阅读完需:约 21 分钟

在金融行业中,风控是业务中十分重要的一环。风控包含了非常多的业务类型,囊括了反赌博、反诈骗、反洗钱、反作弊等等,而根据不同的业务类型,又可以细分为更多的业务场景,例如信贷反欺诈场景,在贷款申请、授信、支用等各个环节都会涉及到,对风控的具体要求也不一样。

由于整体行业的风险趋势,呈现黑产团体化、交易链条复杂化,图数据库成为越来越多企业进行风险防控的不二选择,如何选择一款图库,也成为了众多客户的痛点。由于不同风控的业务类型并不一样,本文尝试从金融行业技术特点的角度剖析,如何选择一款适合客户的图数据库。

01 不二之选:图技术在金融风控的原生优势

首先是总体信贷风控的目标,并非完全消除风险,而是提升风控精准度和效率,平衡收益和风险。由于这个特性,决定了风控总体是个动态的过程,不断的会上一些新的策略,比如在一段时间内,出现了一种新类型的风险,就需要将新的策略上到策略平台,而过了这段窗口期,策略通常也不会直接下线,以防未来再出现风险。

如果要用图数据库来开发新的风控策略,就需要图数据库有较为强大的图查询语言以及 UDF 能力,能够灵活的按照用户的需求开发上线。例如在申请反欺诈场景,寻找进件和黑点在 X 度之内是否有关联是一个典型的图特征,能够对路径上点类型、边类型,度数,以及点边上的阈值灵活做调整,就显得尤为重要。

图技术进行金融风控的原理

围绕提升风控精准度和效率目标,一般会将风控的阶段分为事前预警、事中决策、事后分析。

事前预警

一般是以预测、挖掘为主,对时效性没有太大要求,可以是天级,有交互式分析需求。常见的应用场景是客户的信贷评分,一般需要结合一些图算法和图查询的结果进行综合评分。如何调度图查询、图算法以及利用图可视化做挖掘,将他们串联成一个完整的流程反复执行,并通过参数灵活的做调整,是这个阶段比较关注的图数据库特性。

事中决策

一般会包含实时查询、实时计算,要求豪秒级响应。例如在信贷支用阶段的风控,当发现风险时,要及时切断这笔支用,每一笔支用进来,可能会调用多达上百个图特征,当用户的并发增多(例如 100),对图库的 QPS 要求通常是上万,乃至上 10 万的,而总计的时间窗口也只会要求在几百毫秒以内,否则会影响整体的用户体感,引发业务问题。如果是在业务扩张期,碰上业务高峰,如何扩容也会成为一个至关重要的问题。高并发、低时延、高可用、在线扩容,是这个阶段比较关注的图数据库特性。

事后分析

一般是以追溯为主,对时效性要求低,小时级或者天级,但是会有交互式分析需求。例如信贷场景中的欺诈团队挖掘,或者某笔疑似欺诈交易的挖掘探索。当选择某个点,或者某一批名单,能够较为丝滑的在可视化界面上不断的做拓展,社区划分,路径查询,甚至最后能够发现一个新的风控策略并上线,对于风控人员来说十分重要。这个阶段,对于图数据库在探索分析方面的功能尤为关注。

图技术与传统风控手段的区别?

单点 VS 全局视角

关联图谱具有可视化和连接万物的天然优势,可以突破「单点」判断是否属于欺诈行为的局限性,取而代之的是从「全局」角度更精准、更全面地判断欺诈行为。

滞后 vs 实时风控

传统的欺诈检测依赖于专家经验和人工审核,往往是资损发生后才能发现并总结出规律。关联图谱天然适合超大规模关联数据的深度查询,可以实时作出反应,防患于未然。

人工 vs 自动化识别

图数据库可以通过关联分析、图规则、模式分析、社团分析,全面覆盖实时、准实时及事后三个阶段,系统全方位进行实时风险排查,及时暴露可疑点并自动进行管控,从源头上避免经济损失的发生。

同样的场景,可以使用关系型数据库吗?

要发现大规模的欺诈团伙,往往需要遍历复杂度很高的数据关系。传统的关系型数据库由于存储形态的限制,在处理深度关联查询时效率并不高,有时甚至根本无法计算出结果,难以快速发现隐蔽欺诈行为。

而图数据库采用点-边结构存储数据以及数据间的关系,一图汇总身份、账户、设备和第三方平台之间的信息,非常适合用来处理海量复杂数据间的关联运算。不仅效率更高,而且能获得更直观的全局视图,在数据存储之外帮助业务人员快速发现欺诈团伙,避免潜在经济损失。

02 选型清单:图数据库选型建议

除了业务在不同阶段的诉求之外,整体产品的稳定、运维的便利性十分重要,尤其是对要上线的业务,是重中之重,毕竟一个告警就可能把运维同学折腾够呛。

总结一下,风控对图数据库提出了以下要求:

算法能力:强大的图查询、图算法以及图可视化能力

易用性:统一的图查询语言和自定义能力(UDF)

稳定性:高并发、低时延、高可用

可解释性:探索分析能力

03 择优而取:悦数图数据库的过人之处

那么,如何选择一款合适的图数据库产品,来应对上面提到的这些问题呢?我们可以从以下这些方面做选型的思考——

数据量越来越大,图数据库如何应对大并发的冲击

由于业务特性需要,金融企业需要对接监管、交易、管理、内控等多个系统,常常面临着业务数据量暴发的挑战。而悦数图数据库采用“真正的”原生分布式架构,数据入图自动分片,可以满足 10W 级并发下的毫秒级查询时延。

以悦数的真实用户案例——某个互联网大厂为例,当时该产品月活用户 10 亿,有 100 多亿的用户关系,最大出入度 6000,庞大的数据量形成了一张用户关联大图,用户希望基于图技术实现全平台的个性化好友推荐/广告推荐,利用悦数图数据库实时分析的能力,实时生成精准的个性化推荐内容,其数据更新要求大于 150 万/秒,QPS 要求更是高达 80000,有效提高用户的浏览体验,最终实现了更高的流量转化。

实时性要求越来越高,如何应对低时延的要求

随着普惠金融会进一步扩展和渠道的多样化发展,金融风控正逐渐从原来的「事后」总结向「事先」预防转型。如何在不影响用户体验的情况下快速实现“无感”风控,同时能确保风控结果的准确性就成了金融机构亟待解决的问题,特别是金融互联网业务的兴起,留给一笔交易进行风控判断的时间往往是毫秒级的,这就导致了业务对数据管理和分析的实时性要求也越来越高。

下面我们来看一个「悦数图数据库」合作过的真实用户——由于业务处于高速发展阶段,该全球性社交平台的用户数量正经历迅速增长。用户数超过 2000W,MAU(月活跃用户)超过 1200 W。用户量持续攀升,面临几个挑战:

如何面向新注册用户做推荐,提升留存率

如何精准推荐节日营销活动,提升用户参与度

各类群组活动层出不穷,如何帮助不同用户快速融入各类圈子,提升活跃度与客户粘性

针对以上挑战,悦数图数据库的专业工程师团队结合该企业的实际业务情况打造了一套基于知识图谱的实时推荐解决方案:

构建大规模图谱:基于用户、群组、活动实体、地理位置等实体,邀请、浏览、关注等关系构建用户关联图谱,整个图谱规模超过 50 亿点,100 亿边

实时推荐:使用悦数图数据库提供的工具产品可以轻松实现实时导入数据,确保低延迟、高并发下的读写性能。从活动、地理位置、内容、用户行为、兴趣等多个维度对用户提供实时个性化推荐,实时提供个性化推荐理由,提升推荐成功率

实时搜索:基于用户实时输入字符实时多度关联关系推荐,真正实现了 「Search-as-you-type」

由于悦数图数据库采用了相较一般图数据库更先进的原生分布式架构,因此可以高效支持海量数据下实时性要求更高的场景,同时具备强大的可扩展性,能够灵活支持业务数据弹性扩展需求。

通过悦数图数据库与该企业用户的共同努力,最终这个系统对大规模用户并发下支持万级 QPS,100ms 级时延,可保持业务在线弹性扩缩容,有效应对业务峰值需求,确保在重大营销活动中,有效加深用户之间的关联关系,提升用户留存率(Retention)和月活跃用户(MAU),各类营销活动用户参与度显著提升,为公司带来了更高的用户活跃度和盈利潜力。

业务规模越来越大,如何保证业务在线的同时做到集群的扩展

悦数图数据库采用 Shared-Nothing + 计算存储分离,支持在线弹性扩缩容,轻松实现资源按需分配。强大的可扩展性能够灵活支持业务数据扩展需求,为未来业务的持续增长奠定了良好基础。

在悦数合作的众多企业/机构用户中,不乏有需要业务扩展的对象。以国内某研究所为例,从 2020 年开始使用,日新增数据超过 100G,2022 年底在持续对外提供业务的情况下将集群从 9 节点扩容到 15 节点,期间从未停止在线服务,整体业务平稳过渡。

另外,更多企业在意的扩缩容性能问题也并未出现。悦数图数据库充分使用各个节点资源,能够做到线性扩容,确保性能不受集群扩容影响。以下图为例,悦数图数据库在集群扩容后,能够自动进行数据均衡,确保性能线性增长。

实时在线任务和离线分析任务都有,怎么进行资源隔离

悦数图数据库采用“两套引擎,一套存储”的方式,同时支持实时业务和离线分析业务。

以上图为例,当在线集群处理高并发写入和高并发查询业务时,离线集群处理异步图计算等复杂计算业务,结果写回在线集群。离线集群支撑全图计算和图学习。整个过程中存储和计算分离部署,按需配置,有效隔离 AP 和 TP 的相互影响。

国产信创环境下,数据安全性有保障

金融行业肩负着国家的经济大动脉,数据安全是第一位的。悦数图数据库作为一款国产自研,拥有自主知识产权的高性能图数据库产品,拥有华为鲲鹏、欧拉 OS 认证以及飞腾、龙芯、麒麟 OS 等多个芯片/服务器/操作系统的国产化支持,同时也通过了 ISO27001、ISO9001、CMMI3 认证,中国信通院 图数据库/图计算基础和高级能力专项评测,拥有多项核心专利及认证。

此外,悦数图数据库还支持 SSL CA 签名 &自签名证书模式,提供多种加密策略,平衡性能要求与数据安全要求,支持细粒度控制审计日志, 可以对不同用户,不同的操作均可审计与追溯;支持身份验证以及细粒度的角色权限管理,能够应对复杂的业务场景,让数据安全更有保障。

高效挖掘探索图数据,提升分析效率

交互式图探索:点选交互,拓展、收缩,多种布局挖掘图数据深层次价值, 支持 2D/3D 大规模数据可视化,鸟瞰模式可以宏观视角观测图拓扑结构。

可视化图匹配:拖拽生成图查询语句,所想即所得。

工作流图分析:通过工作流方式灵活调度多种图的计算模式,图查询、子图计算、全图计算无缝衔接。

可视化运维,降低整体运维成本

丰富的监控呈现:集群内机器、服务各项指标的指标呈现、可视化大屏展示。

灵活的告警定制:可以灵活定义指标以及告警规则、告警频率、通知方式等,及时且有效的捕获异常。

一键式运维操作:一键式机器/服务启停、升级、扩缩容、备份还原、Data Balance 等,避免忙中出错。

辅助分析诊断:提供集群诊断、慢查询分析、审计日志等手段,协助 DBA/SRE 进行问题的定界定位。

综上,悦数图数据库能充分满足金融风控场景下对图数据库的多种应用要求,其特性包括——

强大的图查询语言以及 UDF 能力

nGQL 是悦数图数据库使用的的声明式图查询语言,支持灵活高效的图模式,易于学习,兼容当前主流的 opencypher 语法。同时支持用户自定义函数,可编写复杂的风控业务策略;同时,悦数图数据库在未来也会兼容全球的 ISO-GQL 标准。

高效调度图查询、图算法以及利用图可视化做挖掘 & 探索分析

悦数图探索是一款可以通过 Web 访问的可视化图探索工具,搭配悦数图数据库内核使用,用于与图数据进行可视化交互。即使没有图数据操作经验,用户也可以快速成为图专家。

高并发、低时延、高可用、在线扩容

悦数图数据库可以满足 10W 级并发下的毫秒级查询时延;支持单机房高可用和两地多中心灾备部署,业务高峰期依然可以在线扩容

整体产品的稳定、运维的便利性

悦数运维监控是一款用于监控和管理 悦数图数据库 多集群中机器和服务状态的可视化工具,可服务于 DBA 和运维人员进行日常多集群机器和服务的运维 & 监控管理工具,支持自动部署服务、启停节点和服务、日常指标监控、水位告警等。

04 实战巡礼:金融风控中图技术的应用

场景 1: 反欺诈

传统的反欺诈手段有个很重要的问题就是信息不对称,金融机构很难快速去验证信贷客户信息哪些是真实的,哪些是经过包装的,这就导致很多风控措施都相当滞后——往往采取措施时资金损失已经发生。

使用图数据库可以打通多系统、多维度、多类型的数据,融合成全行业务的整体视图。通过申请注册 IP、设备号、手机号、地理经纬度等多个维度实时分析欺诈行为,结合图算法及时发现隐蔽的团体作弊行为,及时阻止欺诈交易并封禁账号,提升申请/交易欺诈识别率,避免可能出现的经济损失。

场景 2:反洗钱

传统的反洗钱模型通常只能关注一度的交易行为,难以进行有效排序和过滤。如果使用人工审核案件,则难以进行深度、有效的探索分析,特征也不具备可解释性,因此难以对团伙作案进行高效管控。

使用图数据库可以有效补充黑产账户的隐藏链接、多账号共同信息等图特征,通过机器学习辅助提升识别准确率,减少误报。基于图可视化快速进行多层探索分析,特征可解释性强。另外,图数据库上还支持 K-core、Louvain 等多种图算法,可以提升欺诈团伙识别效率。

场景 3:担保圈识别

金融担保业务中经常存在交叉担保的现象,但由于担保群体的复杂性和擅于钻规则漏洞的隐蔽性,现有技术对于三个或三个以上的客户形成的环状担保基本无法解决,尤其缺乏深层次和动态的分析监测,担保规模越大、复杂性越高,越难以进行深层次分析。

基于图的深度查询正适合高效识别担保圈/担保链,同时基于多种图可视化手段,金融机构可以快速进行多层的深度探索分析,及时发现并识别核心风险担保圈,对即将发出的信贷申请进行预警,减少人工审核失误,提升风控效率。

场景 4:企业图谱

金融机构在处理业务申请或交割事宜中经常需要分析企业的生产经营状况,而全局视图的缺失非常容易导致信息掌握不全面。另外依靠人力很难及时发现不同企业间相互传导的潜在风险因素,这些都会导致金融借贷、放款审核时的错判漏判。

使用图数据库可以通过持股关系及图算法,可以有效识别隐形集团或发现异常成团情况。基于多层关系穿透查询,也能迅速发现实际控制人和控制路径,并通过实时计算某信用风险引起的关联客群风险快速识别传导路径,让企业实控人关系、股权/转让关系、风险传导等关系等一目了然。

场景 5:交易图谱

在涉赌涉诈、贷后资金流向等场景中,金融机构流出的资金往往涉及多层次的转账关系。这个过程中可能会涉及多种平台机构、空壳企业以及历史流水的转入转出操作,交易账户、交易主体和行为都非常复杂,使用传统手段难以及时发现其中隐藏的作弊行为。

通过图数据库可以最大程度地还原真实的交易场景,这是以往在核查单观察,或者在系统上一步一步点击流水不容易观察到的。分析人员结合账户特征,就可以在图谱上观察有没有分散的转出和转入,或者交易对手成批地更换。结合这些特征和行为,就可以分析账户在整张交易网络中的作用,快速精准地锁定资金最后的流向、受益人是谁。

05 共赴未来:引领金融风控新纪元


如今,金融欺诈及作弊行为比以往任何时候都要更加普遍、出人意料且速度更快,响应行动应分秒必争。选择一款好的图数据库产品不仅可以赋予上层应用更多的敏捷性,而且能在底层提供更安全稳定、易扩展的生产环境,大幅度减轻后续运维的压力。目前广受欢迎的「悦数图数据库」就采用了 Shared-nothing 和存算分离的架构,在波峰波谷可以分别做计算和存储层横向拓展,其次悦数图数据库本身也是一款云原生分布式的图数据库产品,因此能够很好去应对弹性方面的需求。


另一方面,好的应用表现离不开本土化团队的支持,尤其在关键生产业务当中。作为国产自主研发的分布式图数据库代表,悦数图数据库拥有经验丰富的研发和实施交付团队。除了提供企业级服务之外,悦数图数据库也提供了一系列可视化的探索和管理工具,让业务人员更好去做数据的分析探索,数据更直观且具有可解释性。


目前,兴业银行、长沙银行、微众银行等众多银行已采用悦数图数据库作为相关风控系统的核心组件之一。同时,悦数图数据库也得到了某省公安厅、某科学院、国家某局的采用。海量用户验证了悦数图数据库具备优异的企业级性能,能够适应各种场景对图的要求。欢迎您搜索「悦数图数据库」了解用户案例或者直接点击申请免费试用直观感受图技术的应用场景和悦数的产品能力。

用户头像

国产原生分布式图数据库 2023-05-12 加入

高性能、高并发、易扩展,带你实时探索海量关联数据

评论

发布
暂无评论
悦数图数据库 | 图技术在金融风控中的应用选型建议_悦数图数据库_InfoQ写作社区