中文人物关系知识图谱(含码源):中文人物关系图谱构建、数据回标、基于远程监督人物关系抽取、知识问答等应用.
中文人物关系知识图谱(含码源):中文人物关系图谱构建、数据回标、基于远程监督人物关系抽取、知识问答等应用.
项目介绍知识抽取(实体关系抽取)是知识图谱构建中的核心环节,实体关系抽取作为一项基本技术在自然语言处理应用中扮演着重要作用.究其技术而言,主要分成两种三种主流方法:
1, 基于规则的方法
在工业界大多还是使用的规则模板的方法这个项目提供了一种基于 VOB 模式的顺承事件抽取方法,讲的是一种顺承关系基于规则的方法,升级版的话,就是 Bootstrapping 了,可以通过用户自定义种子模板,不断迭代,最终扩充模式,但置信度这个问题不是很好解决
2, 基于学习的方法
这个在学术界用的比较多,从机器学习一直演变了到现在的各种深度学习模型,而在这种方法中,通常实体关系抽取问题转换成一个实体关系分类任务去做,主要可以分成一下几种.
基于全监督的实体关系抽取
这个全监督,也就是说,基于完全标注数据的一种学习方式,例如著名的实体关系评测 Semeval 系列,给出了 19 种关系分类任务,ACE 给出了 17 类的实体关系分类任务.针对这些任务,模型经历了 CNN,LSTM,ATTENTION 等,这里就不再说明.
基于噪声数据的远程监督实体关系抽取
全监督模型固然很好,但数据是一个很棘手的问题,因此就出现了远程监督的方法,所谓远程监督,个人理解就是已经存在的知识库进行数据回标,然后通过多实例学习进行一种容许噪声的监督方法.不过这种方法准确率不是很高,在 NYT 这个数据集上,PCNNS 等工作都没有达到业业界可以使用的地步.当然,最新出现了联合训练的模型.
基于规则与学习模型融合的实体关系抽取
这种方式,在业界或许是一种出路,例如,将实体关系抽取中的实体识别部分交给学习模型去做序列标注,最后针对实体之间的关系,结合依存句法等语义规则去做,这个在解决实体的多种关系问题,可以去尝试.
3, 项目难点
但就针对全监督的实体关系抽取任务而言,在英文数据集上已经在刷各种 state-of-art,但就中文而言,感觉还是一片贫瘠.在网上搜了很久,最终指搜到 COAE2016 的一个评测任务,但是,评测集不公开.因此,就抛出了本项目构建的几个初衷:
中文实体关系抽取数据集很少,能不能构建一个准确率可接受的数据集?
能不能浅显易懂地把那些"高大上"的远程监督,bootstrapping 经历一遍?
人物关系数据在百科等平台上都有放出,或许可以做为远程监督的先验知识库?
能否提供一个实时动态更新的人物关系图谱方法?
4,项目任务
本项目将尝试完成以下几个任务:
完成一定规模的人物关系知识库, 作为公开数据集开放出去
走一遍实体关系回标,形成一个准确性相对允许的人物关系抽取数据集
走一遍基于学习方式实体关系抽取,查看一下效果,熟悉一下这个技术流程
走一便基于 Bootstrapping 的实体关系抽取,熟悉一下这个技术流程
基于构建起来的人物关系图谱,完成一个面向人物关系图谱的知识问答
5.项目架构图
部分代码展示:
6.人物关系基础知识库
1,收集人名词典
2,基于人名词典,采集搜狗人物关系图谱数据库
刘备人物关系网
韩寒人物关系网
3,人物关系数据库规模
4,人物关系 60%
7.回标语料构建
目录地址:EventMonitor
运行方式:cd EventMonitor , scrapy crawl eventspider
回标语料举例:
码源跳转
更多优质内容请关注:汀丶人工智能;会提供一些相关的资源和优质文章,免费获取阅读。
版权声明: 本文为 InfoQ 作者【汀丶人工智能】的原创文章。
原文链接:【http://xie.infoq.cn/article/894f7b9302b57ab8a333db307】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论