【讲坛实录】知识图谱的探索与应用
01
知识图谱到底是什么?
语义网络是一种以网络格式表达人类知识构造的形式,是一种用实体及其语义关系来表达知识的有向图。而知识图谱是一种基于图的数据结构,是一种用图模型来描述知识和建模世界万物之间关联关系的大规模语义网络。
知识图谱以半结构化的形式描述客观世界中概念、实体及其关系。在知识图谱里,我们通常用“实体”来表达图里的节点、用 “关系” 来表达图里的 “边”。
知识图谱有模式层和数据层,右边这张图是模式层,描述的是实体类型(概念)之间的抽象关系;左边这张图则是数据层。
人工智能分为三个阶段,从运算智能到感知智能,再到认知智能。
在上述三个阶段中,我们正逐步迈入第三个阶段,当前研究的重心正在由感知智能领域逐渐过渡到认知智能领域。
认知智能是人类特有的,建立在思考之上的智能。而思考建立在知识之上。AI 要从感知智能迈向认知智能,本质上知识是基础,有了知识基础,AI 才能形成推理机制。而知识图谱富含实体、属性、概念和事件,并从关系的角度将这些信息有机整合在一起。关键的是,它能够基于一定的知识推理为 AI 的可解释性带来全新的一个视角。因此,知识图谱是认知智能底层的一种必要支撑。
02
知识图谱构建的基本流程有哪些?
知识图谱的基本构建流程有数据归集、知识抽取、知识融合、知识加工及知识应用。
数据归集:数据源不统一,对半结构化与非结构化数据需要进行数据抽取。针对构建知识图谱,我们也需要设计底层的这种存储方式。
信息抽取:需要从各种类型的数据里面去提取实体、属性、实体之间的相互关系,在这个基础上形成一些成体系化知识。
其中,实体抽取会用到命名实体识别技术,抽取时从数据集里自动识别命名实体。关系抽取主要是获得语义信息,以此获取实体之间的关联关系。然后使用面向开放域和面向封闭领域的这种抽取方法来进行一个整体的结合,通过关系将实体之间联系起来,进而形成结构化的网状知识结构。属性抽取需要从不同信息源或者数据源里采集特定实体的属性信息。事件抽取一般从标题或者动作里抽取。
知识融合:获取新的知识后对知识进行整合,消除矛盾与歧义。实体对齐是将实体的各种名称进行统一对齐。指代消解是将文中的指代词与所指实体进行整合。
知识加工:知识库构建也称之为本体构建。通过实体并列的关系进行相似度计算,对关系进行抽取,进行实体的生成等等,最终形成一种概念或框架。质量评估是对知识的可信度进行量化,通过舍弃可信度低的知识来保障整个知识库的质量。知识推理主要是处理知识图谱之间关系值缺失一类的问题,通过基于逻辑的推理、基于图的推理、基于深度学习的推理来解决。知识更新包括模式层(知识库)的更新和数据层(数据存储)的更新。
知识存储:处理完成的知识需要存储,有两种存储方式。一种是通过资源描述框架 RDF 进行存储。还有一种是使用图数据库(我们公司的 StellarDB)。现在常用图数据库存储,由于知识图谱的网络可能涉及到上亿的节点,有时甚至几十亿,传统的数据库难以胜任。而图数据库的存储、查询效率非常高。关联查询效率会比传统数据存储的方式要高得多。
03
知识图谱主要依赖什么技术?
在知识图谱落地过程中,最重要的是要教会计算机知识推理的过程,而其中就需要用到图计算这种重要的技术支持。
图计算算法主要包括遍历算法(全盘访问每一个节点)、社区发现(用于计算社交网络中人际关系)、PageRank(源自搜索引擎,用于网页链接排序) ,以及最短路径算法(解决图结构中距离问题),在知识图谱中主要应用遍历算法进行知识推理,以发现实体间隐藏的关系。
知识图谱适用于一些多元的、高维的、关系复杂的场景。例如股票投研情报分析、公安情报分析、反欺诈情报分析、智能搜索等。
04
Sophon KG 为企业级知识图谱落地带来便利
Sophon KG 是一站式知识图谱构建和分析应用平台。为图谱模式定义(包含蓝图定义和本体定义)、知识抽取(从文本标注、模型训练到事件-实体-关系抽取)、知识融合(实体链接、实体合并)、知识存储和检索(对接星环自研的分布式图数据库 StellarDB、可扩展的分布式全文搜索引擎 Scope 和时空序列数据库 Spacture 等)、知识推理(基于 OWL 进行本体推理和基于图计算关联性推理)做全链路的支撑和管理。
Sophon KG 不仅支持零代码交互式图谱查询,还支持语义搜索和推荐、基于图算法的模式发现(知识推理)、智能问答、情感分析、时空分析等功能,从而帮助理解大数据,获得对大数据的洞察,提供决策支持。
Sophon KG 的产品架构如下:
05
Sophon KG 有哪些强大功能?
1、零代码的图谱构建能力
2、交互式的图谱构建
3、交互式的查询,支持定向分析、路径发现
4、强大的图谱分析能力,支持图谱对比、可视化统计、时序分析
5、智能搜索,支持单个实体和批量实体的快速查询
6、文本标注组件 KG Anno,支持实体、关系和文本分类 3 种标注任务
7、全图探索,提供 3D 大图展示
06
知识图谱的典型使用场景有哪些?
金融反洗钱场景
通过关联查询、可视化图分析、图挖掘、机器学习和规则引擎;支持关联关系数据的快速检索、查找和浏览;挖掘隐藏关系并模型化业务经验,帮助金融机构的建立一个可持续、经济可行的反洗钱合规框架。
金融反欺诈场景
针对大量数据,通过筛选分析合作关系、集团关系、投资关系、社团分类关系以及资产与负债等情况,识别风险客户和风险集团,降低人力成本消耗并大幅提升反欺诈能力。
金融风险传导场景
以公司为信用主体追踪其发行的债券标的,结合公司信批等外部舆情,发现并量化重大风险事件,并通过信用主体的参控股关系、投资关系、分子公司关系、担保关系、董监高关系等,实现债权信用传导,影响企业现金流变化,最终来判断信用主体兑付情况。
07
知识图谱的未来会走向何方?
知识图谱应用正经历爆发期,已由原先的语义知识图谱不断向行业细分知识图谱发展,拓展出安全知识图谱、金融知识图谱等行业知识图谱,及风控、投研、营销等场景化的知识图谱。
据 Gartner 发布的 2020 年数据与分析领域的十大技术趋势表示,到 2022 年,知识图谱技术实现 100%的快速增长,到 2023 年,知识图谱技术将促进全球 30%的企业机构决策过程的快速情景化。相信未来,知识图谱将与深度学习等 AI 前沿技术相结合,除金融、营销等场景外,也对自然灾害和其他危机的识别、预测和规划发挥关键作用。
评论