一种融合指代消解序列标注方法在中文人名识别上的应用(上)
技术领域
复制代码
应用场景:
复制代码
解决的问题:
复制代码
系统方法说明
一、对数据进行数据增强:
利用爬虫技术爬取到舆情公告文本数据。
利用分词工具从海量文本中进行文本抽取,抽取出符合要求的单句文本。
针对职务变更词和职务,设置自定义词典,达到数据增强的效果。
数据预处理阶段,根据职务变更等有效信息进行数据增强
复制代码
二、使用了 BERT 模型和指代消解算法:
加入 BERT 语言预处理模型,获取到高质量动态词向量。
融入指代消解算法,根据指代词找出符合要求的子串/短语。
【1】加入 BERT 语言预处理模型,获取到高质量动态词向量
复制代码
【2】融入指代消解算法,根据指代词找出符合要求的子串/短语
复制代码
【3】融入的指代消解算法,比加入外部语料和字符级特征更通用有效
复制代码
该算法未来将拓展至机构名、地名以及其他所有以名称为标识的实体,能更好的服务于京东小程序客户体验中的寄收件地址的文本识别中,提高相关识别的准确率。
版权声明: 本文为 InfoQ 作者【京东科技开发者】的原创文章。
原文链接:【http://xie.infoq.cn/article/ed5959e86fd1ecab85c405f5b】。文章转载请联系作者。
评论