写点什么

索信达控股:新一代金融知识图谱解决方案的落地应用和研究

发布于: 4 小时前

金融知识图谱是有深度和广度的大课题,并在近几年逐渐在金融行业应用落地。对知识图谱的探讨,主要基于图的角度。本文在了解知识图谱到底是什么的基础上,进一步分析知识图谱如何构建及使用,最后探讨知识图谱技术如何在金融行业落地应用。


什么是知识图谱?


知识图谱是把不同种类的多维度信息整合在一起,形成关系网络,网络以图的形式展现。

知识图谱在 2012 年由谷歌率先提出,之后随着大数据和 AI 技术不断的发展,逐渐从研发走向应用。

图是知识图谱的组织形式,由边和点组成。知识图谱是大数据时代、AI 时代的产物,但图在 18 世纪由著名数学家欧拉创立。知识图谱是多实体、多关系、多属性的图。多实体指数量很多,可以是上百万、上千万个,不同的实体有不同类别,还有一级类别、二级类别上下级关联。每个实体有自己的属性。多关系指数量很多,上百种、上千种关系,关系数量也可以是上百万、上千万条,关系也有自己的属性。在图中一边叫节点,在知识图里是实体,图中的边也改称为关系,关系包括对称和非对称关系。


知识图谱的天然优势是可以使用数学家发明的图算法,像图数据库 neo4j 提供基于图论的社区发现算法。

图中基金公司、基金、和基金经理都是实体,不同的实体之间有相互关系。图中的 has 表明每个实体具有哪些属性,像基金的属性包括类型、当前净值、收益、费率、配置等,如果在知识图谱里找到这支基金,则可以查到其相关属性。


知识图谱的雏形可以理解为语义网络和知识工程,也有人把知识图谱定义为语义网络。语义网络是用图像化的方式,通过节点和边表达知识。知识工程的核心是专家系统,用规则的形式把专家知识有效组织,通过推理解决业务问题。在实际应用中,知识图谱已成为技术体系,对于 AI 研究的价值主要体现在认知智能。

目前有两种流行的知识框架,一种是出名的 RDF(resource description framework),以及其类似的框架;另外一种是属性图,有实体有关系,有自己的属性。业界较多使用的形式是属性图。属性图比较适用于金融行业,根据特定的业务场景和能拿到的内外部数据,把实体和关系及相关属性定义清楚。

从应用场景出发,知识图谱可以分为通用知识图谱,领域知识图谱和企业知识图谱。ConceptNet 是通用知识图谱,有 800 万个实体,2000 多万条关系;GeoNames 是领域知识图谱,有 2500 万个实体;企业知识图谱,可以用于产品的可视化展示,提升用户产品搜索的效率和表现,帮助产品的智能推荐。


金融知识图谱构建:构建流程


构建流程总结为 5 个步骤,本体结构、知识抽取、知识融合、知识存储、知识更新。

第一步本体结构也称为 Schema 设计。在处理数据前,对要做的事情要有清晰认识。设计实体、关系架构时,要有灵活度和可拓展性,因为随着数据不断地积累,知识图谱很有可能要扩充。

第二步,抽取知识时,知识来源是现有的数据,像银行内部数据,或者能够获取到的外部数据,数据有结构化、半结构化、和非结构化数据。从数据里把符合本体定义的实体、关系以及定义好的属性找出来的过程中,要进行数据清洗、预处理等常规操作。实体抽取主要指对文本数据进行处理,一些深度学习方法在特定任务的 precision 和 recall 都可以超过 90%,但是有些任务的表现可能会很低。关系提取需要的训练集数据要求较多,预测结果可以通过众包方式来验证。

下一步是融合知识。异构数据源模式匹配是 Schema Mapping 可解决不同知识库之间的模式层冲突。实体消歧指解决同名实体产生歧义的问题,实体链接到知识库中对应实体。知识合并主要指对结构化数据的合并处理。

下面就是如何储存这些知识?关系型数据库可以用于储存知识,它是不少知识图谱采取的主要存储方法。而面向 RDF 的三元组数据库是专门为存储大规模 RDF 数据而开发的知识图谱数据库,有专门的查询语言。Neo4j 是非常流行的基于属性图的存储方式,其存储管理层专门为属性图中的实体、实体属性、关系、关系属性设计了存储方案。

最后,在知识图谱建立后,需考虑知识图谱的维护问题,因为很多方面会导致知识图谱的更新变动。更新时可以使用最新的增量计算技术,提高知识图谱更新的效率。


构建金融知识图谱时的注意要点:刚开始构建知识图谱的时候,不要求规模很大,但要求精准度非常高,至少在 90%以上,其中需要大量的人工干预和检查。一般来说,第二步是使用一些自动化的工具减小知识建模的成本,降低人工的干预;第三步是使用迁移学习的方法,再处理噪声很多但数量大的其他数据,关键是要区分噪声和知识,要有较好的过滤机制过滤噪声。


基于图的机器学习

在实际应用中,很多情况是通过知识图谱计算出实体的特征,例如实体中心节点的程度,或者实体是不是属于某一个社团;实体平均的连接边等,这些从图中挖掘的特征再加入到宽表中。

基于图的机器学习,首先有输入图,用图神经网络进行预训练,把每个实体转化为向量。有每个实体的向量后,可以定义损失函数,训练模型等等,模型可以预测实体的类型、关系的类型、社区等等。

基于图的机器学习:向量化是关键

向量化是把图映射到低纬空间,并保留实体的属性和空间特征。采用图神经网络,是因为之前的方法有以上 3 个痛点,参数太大,对新的实体无法向量化,也没办法使用实体属性的信息。

如果用之前向量化的方式,由于每个实体、关系都可以向量化,例如问某某经理在哪家基金公司上班?在知识图谱中找到这个经理,以及上班的关系,向量化他们,模型可以直接拿来用,把两个向量相加,找到最终点附近的基金公司,可以间接的解决关系缺失的问题。不过现在有技术难点需要解决,例如连接查询中,怎么同时对好几个实体组成的集合进行向量化表示,怎么对两个集合向量进行求交。使用前沿的图神经网络方法能比较好的解决当前知识图谱中智能化的部分。


金融知识图谱的应用

1. 金融知识图谱应用:智能推荐

知识图谱怎么帮助智能推荐?现在推荐比较常用方法像基于用户和内容的协同过滤,基于内容的推荐,和混合的方法。

这些方法目前有一些痛点,像用户内容打分矩阵的稀疏性问题,或者冷启动问题,难以推荐新的内容,给客户的东西没有惊喜感。这时需要知识图谱提供额外的信息。

图中左边是用户,中间是产品,右边是产品知识图谱,这张图表达的是对用户点击浏览过的新闻标题进行解析,找到实体,进行推荐。


现在基金或者理财的推荐面临一些问题,像个性化的推荐程度不足,千人千面实际落地的效果一般;还有一些产品客户扎堆去买,但很多产品无人问津。现在很多银行券商的标签体系在已经不断完善了,怎么用好客户的标签去智能推荐也是问题。

这里有 3 个东西,一个是基金或理财知识图谱,一个是客户信息采集系统,或者是标签系统,主要评估客户的风险承受能力和产品偏好,最后是个性化推荐系统进行产品推荐,避免扎堆。那具体是怎么实现的呢?

首先定义好本体结构或者 schema,像基金作为实体有多少类呢?这里定义的分类,有货基、债基、ETF 等;理财实体,下面包括的子类有固收、权益、混合、商品等;还有主题、板块、行业等实体,并规定他们各自有哪些子类,子类也可以称为二级实体,还可以有子类的子类。把关系定义清楚。之后从不同的数据源的数据中抽取知识,融合、质量控制等,把知识图谱存储到图数据库中。

有基金和理财知识图谱后,给客户进行画像,这里要关注两个点:一是客户风险承受等级,二是客户的偏好信息。风险承受等级是监管的硬性要求,分为五档,是低、低和中低,中低和中、低中低中和中高,最后一类是所有从低到高风险都可以承受;另一块是客户的偏好标签。

有客户风险承受、投资偏好等标签后,需要去知识图谱找基金或理财产品。步骤分为四步:第一,根据客户的风险承受能力,获取限制性子图;第二,根据客户的投资偏好,在知识图谱上获取值得推荐的基金或者理财。索信达目前使用的是基于路径的方法,就是遍历,现在也在把向量化的方法加进来。基于路径在做搜索时,停止的条件是两个,一是检索路径达到预设的最大长度,二是检索路径达到理财产品实体节点,返回这个基金或者理财。一般最后返回的基金或理财产品是多个的,然后再根据客户偏好进行排序,把前 N 个推给客户。

2. 金融知识图谱应用:智能客服

客服首先面对的是要把客户不同的问题归类到模板问题上,对模板问题进行语义分析,形成知识图谱可用的查询语句,再通过知识图谱的遍历或者向量化方法寻找答案,并形成包含答案的自然语言返回给客户。

3. 金融知识图谱应用:智能风控

在知识图谱前,图方法在风控领域,尤其是反欺诈、反洗钱方面运用的非常多,很多银行已经构建了交易流水的图,使用了很多基于图的统计算法。跟之前构建知识图谱的方式一样,只是在风控场景下可能会使用以下特定的数据。金融风控有三个比较主要的痛点,一是风险信息链条断裂,第二是风控的穿透能力不足,第三是风险的识别问题。

知识图谱建可以有效帮助特定的业务场景,生成风险指标,并且可以帮助异动识别,在实时指标发生大变动的情况下,可以进一步排查是否有异动根据图谱查询异动的原因。还可以在知识图谱上完成风险客户的实时画像,做到事中对客户的监控,以及关系预测在反洗钱中的运用,是不是有隐藏的洗钱渠道没有在数据中展示,需要去预测隐蔽的渠道;以及中心节点、社团发现等技术帮助锁定欺诈个人或者团体。

最后,知识图谱是用图的形式对专家知识进行整合,可以在此基础上进行建模分析、统计分析、搜索查询等,基于开发一系列的功能,赋能不同的金融场景。


发布于: 4 小时前阅读数: 11
用户头像

索信达控股(股票代码:03680.HK) 2021.05.20 加入

索信达被誉为港股金融AI第一股。核心团队和研发团队全部来自SAS、Teradata、FICO、德勤、毕马威、安永等,天然具有世界级产品厂商的血缘和水准及专业服务能力,是中国金融行业AI大数据、整合智能营销领导者。

评论

发布
暂无评论
索信达控股:新一代金融知识图谱解决方案的落地应用和研究