恒源云 (GpuShare)_PRGC:基于潜在关系和全局对应的联合关系三元组抽取
文章来源 | 恒源云社区
原文地址 | PRGC:基于潜在关系和全局对应的联合关系三元组抽取
原文作者 | Mathor
Abstract
本文讲关系抽取任务分解为关系判断、实体提取和 subject-object 对齐三个子任务,提出了一种基于潜在关系和全局对应的联合关系三元组抽取框架(PRGC)。具体而言,首先设计一个预测潜在关系的组件,将后续实体提取限制在预测的关系子集上,而不是所有的关系;然后用特定于关系的序列标记组件处理 subject-object 之间的重叠问题;最后设计一个全局对应组件来以较低的复杂度将主客体对齐成三元组。在两个公共数据集上达到了新的 SOTA。
1 Introduction
关系抽取是从非结构化文本中识别(subject,relation,object)三元组。本文将其分解为三个子任务:1.关系判断:识别句子中的关系;2.实体提取:识别句子中的 subject 和 object;3.subject-object 对齐:将 subject-object 对齐成一个三元组
对于关系判断:本文通过组件来预测潜在关系,而不是保留所有的冗余关系,这降低了计算复杂度,取得了更好的性能,特别是在实体提取方面。在实体提取方面:本文使用了一个更健壮的 组件(简称 Rel-Spec Sequence Tag)来分别提取 subject 和 object,以自然地处理 subject 和 object 之间的重叠。对于 subject-object 对齐:本文设计了与一个关系无关的全局对应矩阵来判断特定的 subject-object 对在三元组中是否有效。
在给定句子的情况下,PRGC 首先预测潜在关系的子集和包含所有 subject-object 之间对应分数的全局矩阵;然后进行序列标注,并行地提取每个潜在关系的主客体;最后枚举所有预测的实体对,然后通过全局对应矩阵进行剪枝。
2 Method
2.1 PROBLEM DEFINITION
输入是具有 n 个 token 的句子,期望的输出是关系三元组,其中、分别表示实体集和关系集。
2.1.1 Relation Judgement
对于给定句子,该子任务是预测它句子包含的潜在关系,输出为:,其中 m 为潜在关系子集的大小。
2.1.2 Entity Extraction
对于给定句子和预测的潜在关系,该子任务是使用 BIO 标记方案识别每个 token 的 tag,其中表示 tag。输出为:。
2.1.3 Subject-object Alignment
对于给定句子,该子任务预测主语和宾语的起始 tokens 之间的对应分数。即真正的三元组中的 subject-object 对的得分较高。输出为:,其中表示全局对应矩阵。
2.2 PRGC ENCODER
通过 BERT 对句子 S 进行编码。encoder 的输出:,其中 n 表示 tokens 数。
2.3 PRGC DECODER
2.3.1 Potential Relation Prediction
图中表示潜在关系
给定句子,首先预测句子中可能存在的潜在关系的子集,然后只需要提取用到这些潜在关系的实体。给定 n 个 tokens 的句子嵌入,该潜在关系预测的每个元素为:
其中是平均池化操作,是可训练权重,是 sigmod 函数。
本文将其潜在关系预测建模为一个多标签二进制分类任务,如果概率超过某个阈值,则为对应关系分配标签 1,否则将对应的关系标签置为 0;接下来只需要将特定于关系的序列标签应用于预测关系,而不要预测全部关系。
2.3.2 Relation-Specific Sequence Tagging
如图 1 所示,通过 2.3.1 节中的组件获得了描述的潜在关系的几个特定于关系的句子表示。然后,模型执行两个序列标注操作来分别提取主体和客体。
作者之所以将主语和宾语分开提取,是为了处理一种特殊的重叠模式,即主语宾语重叠(SOO)。作者放弃了传统的 LSTM-CRF 网络,而采用了简单的全连接神经网络进行实体关系识别。该组件对每个 token 的具体操作如下:
其中是训练嵌入矩阵中第 j 个关系表示,是全部关系集合的大小,是第 i 个 token 的编码表示,是训练权重
2.3.3 Global Correspondence
在序列标注之后,分别获得关于句子关系的所有可能的主语和宾语,然后使用全局对应矩阵来确定正确的主语和宾语对。应该注意的是,全局对应矩阵可以与潜在关系预测同时学习,因为它独立于关系。
具体过程如下:首先枚举所有可能的 subject-object 对;然后在全局矩阵中检查每对 subject-object 对的对应分数,如果该值超过某个阈值,则保留该分数,否则将其过滤掉。图 1 中的绿色矩阵即是全局对应矩阵,由 n 个 token 组成的句子。矩阵中的每个元素都与 subject-object 对的起始位置有 1 关,位置代表主客体对的置信度,值越高属于三元组的置信度就越高,矩阵中每个元素的值如下所示:
其中是形成潜在 subject-object 对的输入语句中的第 i 个 token 和第 j 个 token 的编码表示,是可训练权重,是 sigmod 函数。
2.4 TRAINING STRATEGY
其中表示关系集的大小,表示潜在关系子集的大小,总的损失是:
3 Experiments
本文通过了来验证的 PRGC 解码器的有效性,其中编码器 BERT 的所有参数都是随机初始化的。的性能表明,即使不利用预先训练的 BERT 语言模型,本文的解码器框架仍然比其他解码器框架更具竞争力和健壮性。
模型的具体参数:使用 BERT-base 作为编码器、句子长度设为 100,V100GPU,100 个 epochs
4 启示
先抽取潜在关系再抽取与潜在关系有关的实体最后进行 subject-object 的对齐会提高模型的解码速度和算力资源。
潜在关系预测阈值越高,模型的性能越好
三个损失函数的调参是一个工作量问题。
如果句子长度太长最后 subject-object 的对齐工作消耗的空间资源会很大。
评论