知识图谱与古希腊人物关系
如何一图搞懂宙斯和 30 多位情人及 40 多位子嗣间错综复杂的关系?如何最高效地计算新冠病人的“时空伴随者”?如何自动识别朋友关系发现借款人存在虚假信息填报?如何通过病毒-基因-有效药物的关联快速研发新药?本文通过对希腊神话人物关系的探索,带你认识“知识图谱"这个神器。
1、古希腊诸神间的混乱关系
什么~~是神话星球?
比如,你平时逛街、看书、看电影时,有没有这样的困惑,下面几起事件中,这些同名的事物,他们有关系吗?
事件 3:
行星 英文名 罗马名(中文) 希腊名(文)
1,水星:Mercury:墨丘利:赫尔墨斯
2,金星:Venus:维纳斯
3,地球:Earth:Tellus:特勒斯:盖亚:Gaia
4,火星:Mars:马尔斯:阿瑞斯
5,木星:Jupiter:朱庇特:宙斯
6,土星:Saturn:萨杜恩:克洛诺斯
7,天王星:Uranus:乌拉诺斯
8,海王星:Neptune:涅普顿:波赛东
回答是,有关系,西西弗书店,达芙妮品牌,都是取名自希腊神话。
现代生活的很多事物,标准是源自欧洲文明,而欧洲文明又可追溯到希腊文明。以至于我们生活生产中,日常用语中,有很多词汇是源自希腊文明的。
关于达芙妮:丘比特有两支箭,一支爱情,一支厌恶;他把爱情射向阿波罗(太阳神),把厌恶射向达芙妮(月桂女神)。所以阿波罗不停追,达芙妮不停跑,最后达芙妮受不了了,就变成了月桂树。
关于西西弗斯:西西弗斯本是城邦科林斯国王。宙斯掳走河神伊索普斯(Aesopus)的女儿伊琴娜(Aegina),他不但泄露天神宙斯的秘密,还绑架死神塔纳托斯,作为惩罚,神便要求他把一块巨石推上山顶,但由于那巨石太重了,每每未上山顶就又滚下山去,前功尽弃,于是他就不断重复、永无止境地做这件事。
那么问题来了,当你对希腊神话产生兴趣的时候,你会发现,你会被希腊神话的复杂的关系搞得头疼脑大。比如上面 2 个例子,有人名,有称号,有关系,有希腊名,有罗马名,有英文名,有希腊文名称,有拉丁文(罗马)名称,还有现代借了神话人名的品牌商的名称。那么为了理清关系,我们可以怎么办呢?
2、 通过知识图谱梳理关系
为了搞清楚关系,我们先是要扒资料,比如通过百科,收集混乱的天神资料及他们之间的关系。
比如各城邦的守护神
然后呢?我们发现诸神之间的关系太复杂了,比如宙斯赫拉是宙斯的姐姐,也是宙斯的老婆。宙斯的子女众多,据不完全统计宙斯一共有 31 位妻子或情人,1 位男朋友;46 位后代中 1 个巨人,1 只牛头怪,11 位男性,33 位女性。
显然通过表格我们是搞不清的。
有没有办法呢?
也有,比如通过 visio 画个关系图:
这样清楚了吗?也不清楚。这还只画了很小一部分,还是笔者时不时地更新一下子。发现有画错的时候,就很烦,要改好多条线。
那还有没有更有效更经济的办法?
有,那就是知识图谱。
那么:
3、什么~~是知识图谱?
知识图谱,天然就是干这种事的:描述对象、描述对象属性、描述对象间的关系。还可以协同工作(一个人画整个图真的好累啊啊啊)。
(这样是不是就很容易搞清楚关系?)
官方定义是这样:知识图谱是一种基于图的数据结构,由节点(point)和边(Edge)组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”,知识图谱本质上是语义网络。
把定义扩展一下,有这些要素:实体: 指的是具有可区别性且独立存在的某种事物。如某一个人、某一个城市、某一种植物、某一种商品等等。世界万物由具体事物组成,此指实体。如上图中的各位明星等。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。语义类(概念):具有同种特性的实体构成的集合,如国家、民族、书籍、电脑等。概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等。内容: 通常作为实体和语义类的名字、描述、解释等,可以由文本、图像、音视频等来表达。属性(值): 从一个实体指向它的属性值。不同的属性类型对应于不同类型属性的边。属性值主要指对象指定属性的值。属性值主要指对象指定属性的值,例如某个歌手的属性是流行乐歌手。关系: 形式化为一个函数,它把 kk 个点映射到一个布尔值。在知识图谱上,关系则是一个把 kk 个图节点(实体、语义类、属性值)映射到布尔值的函数。如上图的"制作人"、"兄妹"。
一般的构建知识图谱流程
我们以华为云为例(这不是广告~),快速构建一个图谱,篇幅有限,我们只说重点步骤,具体的操作可见文末链接。
我们先看看做完后是啥样:
好,下面开始快速创建一个知识图谱
知识图谱流水线平台功能
功能说明
创建流程
建立本体
数据源:Excel 转 Json;上传数据至 OBS
数据源引入
信息抽取(这里引入另一个复杂些的电影信息为样例,更直观些)
知识映射(这里引入另一个复杂些的电影信息为样例,更直观些)
知识融合(这里引入另一个复杂些的电影信息为样例,更直观些)
到这里,我们回到主页,打开后,就可以看到有复杂关系的希腊神话人物啦!这只是初始化版本,后面可以按需要插入实体和关系了(可以多人写作并在线随时访问哦)。
参考链接:华为云(huaweicloud.com)-文档首页-人工智能-知识图谱 KG-产品介绍-什么是知识图谱服务
4、知识图谱还能做啥?
药物(疫苗研发):通过病毒-基因--有效药物的关联,人们可以针对新病毒开发新药(疫苗)
不一致验证
不一致性验证可以用来判断一个借款人的欺诈风险,这个跟交叉验证类似。比如借款人张三和借款人李四填写的是同一个公司电话,但张三填写的公司和李四填写的公司完全不一样,这就成了一个风险点,需要审核人员格外的注意。
通过关联:
借款人王五说跟张三是朋友关系,王五又是李四的爷爷。当我们试图把借款人的信息添加到知识图谱里的时候,“一致性验证”引擎会触发。引擎首先会去读取张三和李四的关系,从而去验证这个“三角关系”是否正确。很显然,朋友的朋友通常不会是孙子,所以存在着明显的不一致性。
发现关系:
发现实际控制人,最终受益人:
毒王去哪了?
5、资料清单
注:文中部分图片来源于网络,如有侵权,请联系删除!
版权声明: 本文为 InfoQ 作者【数新网络官方账号】的原创文章。
原文链接:【http://xie.infoq.cn/article/d27e9e023fc10ddc19927518b】。文章转载请联系作者。
评论