写点什么

基于图数据库构建知识图谱平台应用实践

作者:星环科技
  • 2024-03-01
    上海
  • 本文字数:2511 字

    阅读完需:约 8 分钟

基于图数据库构建知识图谱平台应用实践

摘要

中信证券基于分布式图数据库 StellarDB,替代国外开源图数据库产品,打造全新的企业级知识图谱平台,应用于同一客户集团画像、科创板关联发现、风险事件报告、全球企业关联图谱、产业链图谱、投研图谱、反洗钱与稽核图谱、元数据图谱等应用场景。

问题

过去,中信证券基于 Neo4j 社区版构建各类图数据库应用,但社区版存在不支持多实例需求、计算资源限制及不满足高可用、缺乏统一管理需求等问题。

行动

• 2021 年为了满足企业级应用,中信证券基于星环科技分布式图数据库 StellarDB 和知识图谱平台 SophonKG,打造了全新的企业级知识图谱平台,知识图谱平台的图存储技术为自研 KV 存储,存储设计按照属性图模型设计,满足 TB 级存储需求;2023 年 5 月,中信证券完成知识图谱平台的扩容,并基于 StellarDB 5.0 进行架构升级;

• 基于知识图谱平台,中信证券构建了同一客户集团画像、科创板关联发现、风险事件报告、全球企业关联图谱、产业链图谱、投研图谱、反洗钱与稽核图谱、元数据图谱等十余个应用。

结果

• 中信证券知识图谱平台实现了一站式运维管理、调度管理和权限管理等,满足高可用要求要求,性能提升数倍,在金控报送方面节省时间成本约 30% 。

分享专家:陈辉华,中信证券高级副总裁作者:沙丘社区分析师团队

案例企业

中信证券股份有限公司成立于 1995 年 10 月,2003 年在上海证券交易所挂牌上市交易,2011 年在香港联合交易所挂牌上市交易,是中国第一家 A+H 股上市的证券公司,率属于中国中信集团有限公司。中信证券目前拥有 7 家主要一级控股子公司,分支机构遍布全球 13 个国家,中国境内分支机构和网点 400 余家。中信证券规模优势显著,是国内首家资产规模突破万亿元的证券公司。主要财务指标连续十余年保持行业第一,各项业务保持市场领先地位,多年来获得亚洲货币、英国金融时报、福布斯、沪深证券交易所等境内外机构颁发的各类奖项。项目背景

2018 年,中信证券基于 Neo4j 社区版构建各类图数据库应用,但社区版存在不支持多实例需求、计算资源限制及不满足高可用、缺乏统一管理需求等问题。

2021 年,随着应用激增,为了满足企业级的建设需要,中信证券基于星环科技分布式图数据库 StellarDB 和知识图谱平台 SophonKG,打造了全新的企业级知识图谱平台,知识图谱平台的图存储技术为自研 KV 存储,存储设计按照属性图模型设计,满足 TB 级存储需求。在图数据库服务的顶层,还提供了丰富的接口,如 Java、Python、RESTful API 等,方便自定义开发,重构了企业图谱及集团客户画像、风险事件报告、科创版关联发现以及联机分析等十余个应用。2023 年 6 月,中信证券完成了知识图谱平台的扩容,并基于 StellarDB 5.0 进行了架构升级。解决方案为搭建图谱独特的 HTAP 架构,实现统一图存储服务和多套计算引擎资源物理隔离,满足图计算和图查询任务的不同资源需要;在集群中部署 1 套图存储服务和 3 套 Quark 计算引擎服务,多个 Quark 之间可以共享元信息。构建一种基于图结构数据的端到端全流程图机器学习框架,其底层与图数据库紧密对接,以实现高效的数据读写和查询过滤等预处理工作的下推。解决方案

基于星环科技分布式图数据库 StellarDB 和知识图谱平台 SophonKG,中信证券知识图谱平台实现方案如下:星环科技分布式图数据库 StellarDB 提供大数据处理能力和通用组件能力,支持平台内一站式运维管理;知识图谱平台为星环科技知识图谱平台 SophonKG,提供图谱构建、图谱融合、图谱查询、可视化以及图谱计算、图谱分享等能力。

知识图谱平台业务功能特点如下:第一,多模查询和存储。使用统一的 Quark 计算引擎,SQL 结合图语言 Cypher 的多模查询语言,可以实现多模查询;支持 hive、文本文件、图模型等多模态存储。第二,多场景应用。知识图谱平台支撑 10 余个下游应用;SophonKG 提供自助分析平台,支持业务自助探索图谱;提供图机器学习能力,应用于 ETF 推荐和场外配资等场景。第三,高性能。星环科技在计算引擎侧引入 local+cluster 混合计算模式策略,自如应对实时和离线分析;原生分布式图数据库,拥有处理百亿级图数据的能力;搭建 HTAP 架构,AP 算法任务和 TP 查询任务分离。第四,高可用。采用多节点 HA 方式,提供高可用服务;使用 Raft 协议,提供秒级副本切换服务;通过 Kubenetes 实现故障自动恢复;根据 DAG 执行计划,重试丢失/出错任务。

知识图谱平台的应用场景如下:(1)同一客户集团画像中信证券采用 Louvain 社区发现算法,挖掘集团簇,最后在各自集团簇内企业,沿关系向上获取归属集团,结合风控提出的个性化需求,例如银行不再上穿、个人集团认定等,数据库提供丰富的 Cypher 复杂逻辑的处理能力。

(2)科创板关联发现战略投资者持有科创版股票不允许做融券卖出,中信证券通过最短路径分析(不限定方向不定长查询,去掉任职关系),查看两者的利益关联关系。

(3)风险事件报告基于统计维度(持仓、衍生品标的、客户)和业务条线(自有资金业务、资管业务、经纪业务、投行业务、托管业务),中信证券框定 11 种角色。通过舆情平台监控风险事件,当发生风险事件时,通过客户谱系找到成员企业及其持仓,自动通过邮件输出报告发送给业务方及领导进行实时监控。

(4)全球企业关联图谱将境外企业输出与境内企业融合,核心节点是企业、员工、关系人、产品、营收、行业、金融产品,共包括 19 种关系、3 亿实体、4 亿关系。

(5)产业链图谱将第三方产业链数据加载到图谱中,为公司客户经理提供产业链服务,直观展示已开发、已服务、待开发的客户,帮助客户经理挖掘商机。

(6)投研图谱从部委的政策源出发,通过 NLP 技术提取每条政策的核心观点和行业板块等,同时结合新闻舆情源的信息,对二者进行匹配和召回,计算政策影响因子值,通过产业链传播算法得到传播系数,结合图传播算法找到个股因子,回测效果相对收益达到 25%。

(7)反洗钱与稽核图谱通过对连通子图的挖掘,合规人员可以从高风险人员出发,找出潜在可疑团伙。

(8)元数据图谱多跳(8+)的数据血缘 neo4j 社区版查询不出结果,基于 StellarDB 强大的多跳计算能力和改进的 expand 算法,实现 15 跳内的数据血缘(溯源和影响性分析)。

价值与效果

中信证券知识图谱平台实现了一站式运维管理、调度管理和权限管理等,满足高可用要求要求,性能也提升了数倍,在金控报送方面节省时间成本约 30%,目前成果在公司内广泛应用。

用户头像

星环科技

关注

还未添加个人签名 2020-10-22 加入

领航大数据与人工智能基础软件新纪元

评论

发布
暂无评论
基于图数据库构建知识图谱平台应用实践_星环科技_InfoQ写作社区