写点什么

如何基于知识图谱实体解析技术进行数据优化?

作者:索信达控股
  • 2022 年 1 月 17 日
  • 本文字数:4224 字

    阅读完需:约 14 分钟

如何基于知识图谱实体解析技术进行数据优化?

数据作为一种关键的生产要素,其在 AI 大数据时代的重要性堪比“石油”,它将驱动各行各业发生最深刻的变革。掌握宝贵数据资源的公司犹如坐拥矿山,它们面临的重要课题是,如何对“数据之矿”进行更加高效的开采和冶炼。对于银行业而言,数据的来源是多种多样的,内外部数据源的精准融合是数据冶炼之道的关键。

知识图谱作为一种知识构建、表示、存储、检索和推理的系列技术,是人工智能的重要分支;它的应用不仅提升了 AI 技术水准,也推动了自然语言处理、数据库等相关技术的蓬勃发展,被广泛视为下一代人工智能技术的基础设施之一。本文介绍基于知识图谱实体解析的数据优化技术,旨在改善数据去重,数据融合,显著增强数据质量,助力银行业在营销、风控等各条业务线上取得广泛的提升。


一、银行面对海量数据,各种问题层出不穷


银行拥有海量的收支交易数据,每条交易记录都反映了客户的消费行为,其中蕴含的商户数据更是连接网点和客户的关键节点。一方面,收支上游原始交易数据往往存在着信息缺失、冗杂、记录不规范等问题;另一方面,银行也会从工商部门、税务部门,或者第三方数据公司接入商户数据,不同的数据来源存在着标准质量不匹配的问题。如何优化商户数据的清洗逻辑,实现清洗流程的自动化并降低人工成本?如何更加高效地对多源数据进行匹配和融合?如何改善商户宽表字段的准确率并扩充丰富度?



图 1.   真实世界的用户 VS 数字世界的账户


大型公司还会面临另外一种问题:一个用户在使用某产品时很可能会注册多个账号,也可能同时注册多个产品;在此过程中,用户往往还会改变注册名称、注册电话号码、注册 email 等信息。从公司整体战略出发,如何将数字账户与真实世界的用户进行关联,更好地了解后者的行为特点及偏好,进而实施更优的客户管理,营销与推荐,审查与风控?

在上述两个场景中,商户/用户的每一行数据都代表了数字世界的一份记录,它们与真实世界的商户/用户实体经常形成“多对一”的关系——即处于“未解析”的状态。实体解析(Entity Resolution,ER)任务就是要采用合适的算法,找出这些“多对一”关系,解析并映射到现实世界中唯一的“实体”,实现数字世界的实体链接与融合[1-3]。


二、基于知识图谱的实体解析技术


图 2. 基于知识图谱的实体解析过程


图 2 展示了实体解析的一般过程:首先要对不同来源的数据进行 ETL 处理,第二步是对数据进行建模,最后再对数据进行实体链接,实体融合。一般而言,实体解析任务既可以基于关系型数据模型,也可以基于图数据模型(如知识图谱)。


图 3. 知识图谱数据结构示意图


基于关系型数据(表 1)模型可以实现实体解析,作为对比,这里主要是利用知识图谱(参见图 3)。本方法将实体及其关键属性定义成图谱的节点,将关系定义成边,利用图数据库实现优秀的可视化及可扩展性,清晰,直观地展示节点之间的丰富关联关系,如图 4。



表 1. 表格数据(与图 4 对应)



图 4. 图谱数据(与表 1 对应)


基于知识图谱来的实体解析技术包括以下流程:

第一,构建和存储图谱。此阶段主要是设计知识图谱的 schema,并将 schema 和图谱数据导入图数据库;

第二,实体链接(Entity Linking)。实体链接是通过实体相似度算法实现的,一般而言相似度算法可以分成三大类:

1、基于集合的距离算法如 Jaccard Distance 和 Dice Distance 等。在此类算法里,考虑两个实体的关键特征集合 A 和 B,定义它们的集合距离为




由上述公式可以看出,二者重合的特征越多,距离越近,相似度越高。


2、基于字符串匹配或者编辑字符串匹配的方法,如 Jaro similarity,Levenshtein score. Jaro similarity 属于字符串匹配的相似度算法,定义如下



其中,|s| 和 |t| 是待比较字符串的字母个数;m 是二者的重要重叠字母数,任一重要重叠字母 c 满足:



x 是 s 和 t 中调换了次序的重要重叠字母数。显然,两个字符串的重要重叠字母数 m 越大,二者的相似度越高;调换了次序的重要重叠字母数 x 越大,相似度越低。Jaro-Winkler 作为改进算法,进一步增大了两字符串最左侧重叠字母的相似度权重。

Levenshtein score 属于编辑字符串匹配的相似度算法,两个字符串



的距离可以通过复制、替换、删除、插入四种操作比对得到



其中



最后得到归一化相似度分数



Levenshtein score 通过计算两个字符串重合所需的最少变形次数来衡量二者的相似度。


3、基于 embedding 的向量距离,如 cosine 相似度。利用知识图谱表示学习技术,可将图谱节点嵌入到低维实空间,进而通过计算余弦相似度的办法判定两个节点的重合程度



第三,实体融合(Entity Grouping)。在实体融合阶段,利用连通分量算法找出 SameAs 边连接的所有联通子图;对联通子图的实体进行融合与删除,实现数据质量的提升。


三、实践案例


在本案例中我们使用了 officer 公开数据集,该数据集一共包含 55,215 条数据,每条数据都代表美国伊利诺伊州的一名 officer 的个人信息,每条信息都包含 9 种属性(如表 1. 表名)。


1.图谱 schema 设计

首先,需要定义图谱的 schema,我们一共创建了 10 种类型的节点:OfficerRegistered、Officer、LastName、FirstName、Address、City、State、Zip、Title、Phone. 其中,OfficerRegistered 节点(图 5. 蓝色居中)代表了数据集中未解析的实体,Officer 节点(图 5. 橙色)代表真实世界的实体;其余 8 种节点刻画了 OfficerRegistered 和 Officer 的关键属性。


对于边而言,OfficerRegistered 节点与 8 种关键属性之间存在着“Has_”边,如 Has_LastName、Has_FirstName 等;Officer 节点与 8 种关键属性之间存在“Officer_”边,如 Officer_LastName、Officer_FirstName 等;除此之外,Officer 与 Officer 之间还存在着 SameAs 边,表明他们在真实世界对应相同的实体;Officer 与 OfficerRegistered 之间存在 Has_Link 边。整个图谱 schema 参见图 5。



图 5. officer 图谱的 schema


2.数据加载

我们把图谱的 schema 和 officer 数据集加载到图数据库(如 Tiger Graph),完成基于知识图谱的数据建模过程。数据加载之后,OfficerRegistered 节点、8 种属性节点、以及相应边被赋值;物理实体的 Officer 节点,及与其相连的边仍有待初始化。


3.初始化

初始化步骤是对物理实体 Officer 节点,及与其相连的边赋初值的过程。具体做法是:从每一个 OfficerRegistered 节点出发,将其 ID 赋给与之相连的 Officer 节点,同时对二者连接的 Has_Link 赋值;Officer 节点的“Officer_”边初值由 OfficerRegistered 节点与其关键属性的关联性决定。

注意到 SameAs 边此时仍未被赋值,它将由“实体链接”过程进行预测。


4.实体链接

本案例使用的实体链接算法包括基于集合的 Jaccard Distance 和基于字符串匹配的 Jaro-Winkler 方法。具体而言,我们计算了 OfficerRegistered 节点之间的关键属性相似度;并用预设的初始权重进行加权得到最终的节点相似度,将其与预设的阈值进行比较,以此判定两个节点是否应该建立一条 SameAs 边的连接。


5.实体融合

链接完成后,彼此匹配的 Officer 节点之间建立了 SameAs 连接。此时,可在由 Officer 节点和 SameAs 边形成的网络上执行连通分量算法,为相同连接组中的实体分配相同的标签,然后对它们进行合并,实现对重复实体数据的融合。


连通分量算法通过标签传播实现: 1)为每个 Officer 节点分配唯一的整数 ID;2)将此 ID 传送到与本节点 SameAs 连接的相邻节点,这样每个 Officer 节点都会接收到它所有相邻节点的 ID;3)使用从相邻节点接收到的最小 ID 值更新旧 ID;4)重复上面的步骤 2 和步骤 3,直到没有无法再更新 ID。当迭代停止时,每个连接组件中的节点将有相同 ID,即连接组件中最小的 ID。进一步考虑每一个实体节点的重要性分数,还可以从中选择一个领头实体。

实体融合的最后一步是让 Officer 领头实体继承组中的所有属性,并删除其他 Officer 实体。


6.结果解读

本节对部分结果进行解读,图 6 列举了双重解析的示例,图 7 为三重解析的示例;另外,四重解析的示例参见图 4. 图 8 给出了节选的 officer 实体解析结果鸟瞰图。

以图 6a 为例,两个蓝色 OfficerRegistered 节点分别具有 ID 号 44566 和 44567,他们拥有相同的 FirstName 即 Ronald,相同的 LastName 即 Anderson,相同的 Address 即 141 Linden,城市和邮政编码也是相同的。他们的不同职业和电话号码有可能暗示了两段不同的工作经历。图 6b 的 FirstName 不一致,但其他属性的重叠程度足以说明二者是同一人。



图 6a. 对 ID 号为 44566,44567 的人员进行实体解析的结果示例



图 6b. 对 ID 号为 4019,4020 的人员进行实体解析的结果示例


在图 7a 的三重解析中,ID 号 5938 与 13034 的 OfficerRegistered 节点共享了 FirstName 即 Peter J, 共享了 LastName 即 Andrews Jr,也共享了 City 即 Chicago;13034 与 627 节点同样共享了 FirstName、City、Phone 和 Zip.  图 7b 也能发现类似现象。


图 7a. 对 ID 号为 5938,627,13034 的人员进行实体解析的结果示例


图 7b. 对 ID 号为 7583,35667,35597 的人员进行实体解析的结果示例


最后,图 8 展示了 officer 实体解析结果的鸟瞰图(节选),其中黄色代表真实的实体即 Officer 节点,蓝色代表未解析的实体即 OfficerRegistered 节点;连线即 Has_Link 边(代表后者被解析,将被融合)。在我们的实验中,1000 个采样数据,经融合后剩下 872 个解析后的 Officer 实体。



图 8. officer 实体解析结果鸟瞰图(节选)


基于知识图谱的实体解析技术是优秀的数据优化方法,它能高效地实现数据去重、链接和融合;它因此也能成为了知识图谱动态更新的有效机制。在商户和用户的典型场景中,它帮助人们更好地融合数据,提供可视化解释;它同时也能够扩充被融合实体的特征维度,改善业务效果。


参考文献:

[1]Peter Christen. Data Matching:Concepts and Techniques for Record Linkage, Entity Resolution, and Duplicate Detection, Springer-Verlag Berlin Heidelberg 2012.

[2]Omar Benjelloun, Hector Garcia-Molina, David Menestrina, et al. Swoosh: a generic approach to entity resolution, The VLDB Journal volume 18, pages255–276 (2009).

[3]Alieh Saeedi, Markus Nentwig, Eric Peukert, et al. Scalable Matching and Clustering of Entities with FAMER, CSIMQ, Article 95, Issue 16, September/October 2018, Pages 61–83.


索信达控股 AI 创新中心

专注探索人工智能等前沿技术在金融大数据领域的应用,技术研究方向包括深度学习、自然语言处理、可解释机器学习、无监督与半监督学习等。团队成员均为硕士以上学历,其中博士 6 人,打造了 30 余项发明专利,并获得广东省金融人工智能工程技术研究中心挂牌。中心为多个金融业客户打造了在智能营销、智能风控、智能审计、智能运营等多个场景的解决方案,取得良好的效果。

用户头像

索信达控股(股票代码:03680.HK) 2021.05.20 加入

索信达被誉为港股金融AI第一股。核心团队和研发团队全部来自SAS、Teradata、FICO、德勤、毕马威、安永等,天然具有世界级产品厂商的血缘和水准及专业服务能力,是中国金融行业AI大数据、整合智能营销领导者。

评论

发布
暂无评论
如何基于知识图谱实体解析技术进行数据优化?