深度学习应用篇 - 自然语言处理 - 命名实体识别 [9]:BiLSTM+CRF 实现命名实体识别、实体、关系、属性抽取实战项目合集(含智能标注)
深度学习应用篇-自然语言处理-命名实体识别[9]:BiLSTM+CRF 实现命名实体识别、实体、关系、属性抽取实战项目合集(含智能标注)
1.命名实体识别介绍
命名实体识别(Named Entity Recoginition, NER)旨在将一串文本中的实体识别出来,并标注出它所指代的类型,比如人名、地名等等。具体地,根据 MUC 会议规定,命名实体识别任务包括三个子任务:
实体名:人名、地名、机构名等
时间表达式:日期、时间、持续时间等
数字表达式:百分比、度量衡、钱、基数等
我们来看这句话,百度于 2021 年 3 月 23 日正式回香港上市,这句话中"百度"是个机构名,"香港"是个地名,"2021 年 3 月 23 日"是个日期,命名实体识别任务能够通过建模的方式来帮助我们自动地发现这些实体。
命名实体识别是一项比较关键的 NLP 任务,具有广泛的应用场景,例如在对话意图理解(NLU)中,通过提取出相应的实体词,能够帮助系统更加准确地理解用户的需求,比如根据用户的问题提取出"天气","北京","今天"这样的词汇,大概率就能知道用户在问些什么;在微博场景中,应用命名实体识别提取出微博短文中重要的实体词,也有利于微博信息的汇总,或者事件热度的统计。
NER 任务一般会被建模成序列标注任务,也就是说,模型的输入是待识别的一串文本序列,模型的输出就是该文本序列对应的标签序列,不同于文本分类任务,这是一种序列到序列的任务。我们来举个例子:
这句话中的每个字分别对应着一个标签, 模型的输入就是上边的文本,模型的输出就是下面的标签序列,我们通过这样的标签序列就能识别出原始文本中的实体。 具体地,上边这串文本中,"姚明"对应着 Person 实体,其中"姚"字是"Person"实体的起始字,所以设置标签为"B-person",其中标签前边的 B 代表 Begin 这个单词;"明"字是"Person"实体的中间字,所以设置标签为"I-Person",其中标签前边的 I 代表 Intermediate 这个单词。 "中国篮协"对应这 Organization 实体,相应标签"B-Organization"和"I-Organization"的解读和 Person 实体是一致的。最后的标签"O"代表"other",表示其他实体类型的标签。
看到这里,相信你已经知道,本节的 NER 任务要建模完成一件什么事情了,即建模一个序列到序列的模型来找出文本中蕴含的实体。
2.BiLSTM+CRF 实现命名实体识别
BiLSTM + CRF 是一种经典的命名实体识别(NER)模型方案,这在后续很多的模型 improvment 上都有启发性。如果你有了解 NER 任务的兴趣或者任务,或者完全出于对 CRF 的好奇,建议大家静心读一读这篇文章。
本篇文章会将重点放到条件随机场(CRF)上边,因为这是实现 NER 任务很重要的一个组件,也是本篇文章最想向你推荐的特色。但是如果你 对长短时记忆网络(LSTM)也不是很熟悉,那你也不用担心,笔者会去解释 LSTM 的用法,它的输入和输出等等内容,以保证你可以顺畅的读下去,领悟到这个模型的精髓。
2.1 使用 BiLSTM+CRF 实现 NER
为方便直观地看到 BiLSTM+CRF 是什么,我们先来贴一下 BiLSTM+CRF 的模型结构图,如图 1 所示。
图 1 使用 BiLSTM+CRF 实现 NER
从图 1 可以看到,在 BiLSTM 上方我们添加了一个 CRF 层。具体地,在基于 BiLSTM 获得各个位置的标签向量之后,这些标签向量将被作为发射分数传入 CRF 中,发射这个概念是从 CRF 里面带出来的,后边在介绍 CRF 部分会更多地提及,这里先不用纠结这一点。
这些发射分数(标签向量)传入 CRF 之后,CRF 会据此解码出一串标签序列。那么问题来了,从图 1 最上边的解码过程可以看出,这里可能对应着很多条不同的路径,例如:
B-Person, I-Person, O, ..., I-Organization
B-Organization, I-Person, O, ..., I-Person
B-Organization, I-Organization, O, ..., O
CRF 的作用就是在所有可能的路径中,找出得出概率最大,效果最优的一条路径,那这个标签序列就是模型的输出。
我们来总结一下,使用 BiLSTM+CRF 模型架构实现 NER 任务,大致分为两个阶段:使用 BiLSTM 生成发射分数(标签向量),基于发射分数使用 CRF 解码最优的标签路径。
2. 回归 CRF 建模原理本身
本节将开始聚焦在 CRF 原理本身进行讲解,力图为读者展现一个清楚明白,基础本质的 CRF。那现在开始这趟学习之旅吧,相信你一定会有所收获。
2.1 线性 CRF 的定义
通常我们会使用线性链 CRF 来建模 NER 任务,所以本实验将聚焦在线性链 CRF 来探讨。那什么是线性链 CRF 呢,我们来看下李航老师在《统计学习方法》书中的定义:
设 均为线性链表示的随机变量序列,若在给定随机变量序列的的条件下,随机变量序列的条件概率分布构成条件随机场,即满足马尔可夫性:
则称为线性链条件随机场。
同学们看到这个定义,或许会有些疑惑,但是不用着急,我们来探讨下这个定义。图 2 展示了一种经典的线性链 CRF 的结构图,从这张结构图来理解这个定义,主要包含两个点:
确保输入序列和输出序列是线性序列
每个标签的产生,只与这些因素有关系:当前位置的输入,直接相连的两个邻居和,与其他的标签和输入没有关系。
这样的定义,其实帮助我们减小了建模 CRF 的代价。
图 2 一种经典的线性链 CRF 结构图
2.2 发射分数和转移分数
上边我们探讨了线性链 CRF 的定义以及它的一种经典图结构,接下来我们继续回到我们建模的命名实体任务上来。
在图 2 中,代表输入变量,对应到我们当前任务就是输入文本序列,代表相应的标签序列,
其中,每个输入均对应着一个标签,这一步对应的就是发射分数,它指示了当前的输入应该对应什么样的标签;在每个标签之间也存在连线,它表示当前位置的标签向下一个位置的标签的一种转移。举个例子,假设当前位置的标签是"B-Person",那下一个位置就很有可能是"I-Person"标签,即标签"B-Person"向"I-Person"转移的概率会比较大。
这里我们带出了建模 CRF 过程中两个重要的概念:发射分数和转移分数,下边我们来看看他们是什么。
2.2.1 发射分数
前边我们在第 2 节已经提到过发射分数了,即 BiLSTM 后产生的标签向量。如果大家对这部分内容已经很熟悉,完全可以跳过这部分。图 3 以矩阵的形式展示了发射分数的生成过程。
图 3 发射分数的矩阵计算解释
当给定的文本序列映射为对应词向量之后,将会得到一个 shape 为的词向量矩阵,其中每对应一个字词(图 5 样例只使用了 4 个词),例如对应的词向量是。
然后将传入 BiLSTM 后,每个词的位置都会产生一个上下文向量,所有的向量组合之后会得到一个向量矩阵,其中每行代表对应单词经过 BiLSTM 后的上下文向量。
这里的每个位置的上下文向量可以用来指导当前位置应该输出的标签信息,但这里有个问题,这个输出向量的维度并不是标签的数量,它不能直接用来指示应该输出什么标签。一般的做法是在后边加一层线性层,将这个上下文向量的维度映射为标签的数量,这样的话就会生成前边所讲的标签向量,其中的每个元素分别对应着相应标签的分数,根据这个分数可以用来指导最终标签的输出。
具体地,线性层这里只是做了这样的一个线性变换:,显然,这里的就是, 是相应的,是线性层的可学习参数。前边提到,的 shape 为,那么线性层的的 shape 应该是,经过以上公式的线性变换,就可以得到发射分数,其中每个字词对应一行的标签分数(图 3 中只设置了三列,代表一共有 3 个标签),例如,对第一个标签的分数预测为,对第二个标签的分数预测为,对第三个标签的分数预测为,依次类推。
2.2.2 转移分数
下面我们来聊聊转移分数,这个转移分数表示一个标签向另一个标签转移的分数,分数越高,转移概率就越大,反之亦然。图 4 展示了记录转移分数的矩阵。
图 4 转移分数矩阵图
让我们从列到行地来看下这个转移矩阵,B-Person 向 I-Person 转移的分数为 0.93,B-Person 向 I-Organization 转移的分数为 0.02,前者的分数远远大于后者。I-Person 向 I-Person 转移的概率是 0.71,I-Organization 向 I-Organization 转移的分数是 0.95,因为一个人或者组织的名字往往包含多个字,所以这个概率相对是比较高的,这其实也是很符合我们直观认识的。
假设我们现在有个标签序列:B-Person, I-Person, O, O,B-Organization, I-Organization。那么这个序列的转移分数可按照如下方式计算:
这个转移分数矩阵是 CRF 中的一个可学习的参数矩阵,它的存在能够帮助我们显示地去建模标签之间的转移关系,提高命名实体识别的准确率。
2.3 CRF 建模的损失函数
前边我们讲到,CRF 能够帮助我们以一种全局的方式建模,在所有可能的路径中选择效果最优,分数最高的那条路径。那么我们应该怎么去建模这个策略呢,下面我们来具体谈谈。
图 5 CRF 解码过程图
图 5 展示了 CRF 的工作图,现在我们有一串输入(这里的是文本串对应的发射分数,每个字词都对应着一个发射分数向量,也就是前边提到的标签向量,该向量的维度就是标签数量),期待解码出相应的标签序列,形式化为对应的条件概率公式如下:
在第 2 节我们提到,CRF 的解码策略在所有可能的路径中,找出得出概率最大,效果最优的一条路径,那这个标签序列就是模型的输出,假设标签数量是,文本长度是,显然会有条路径,若用代表第条路径的分数,那我们可以这样去算一个标签序列出现的概率:
现在我们有一条真实的路径,即我们期待 CRF 解码出来的序列就是这一条。那它的分数可以表示为,它出现的概率就是:
所以我们建模学习的目的就是为了不断的提高的概率值,这就是我们的目标函数,当目标函数越大时,它对应的损失就应该越小,所以我们可以这样去建模它的损失函数:
为方便求解,我们一般将这样的损失放到 log 空间去求解,因为 log 函数本身是单调递增的,所以它并不影响我们去迭代优化损失函数。
千呼万唤始出来,这就是我们 CRF 建模的损失函数了。我们整个 BiLSTM+CRF 建模的目的就是为了让这个函数越来越小。从这个损失函数可以看出,这个损失函数包含两部分:单条真实路径的分数,归一化项,即将全部的路径分数进行操作,即先将每条路径分数进行,然后再将所有的项加起来,最后取值。
讲到这里,有的同学可能会有疑惑,这里的每条路径分数应该怎么算呢?接下来,我们就来解决这个问题。
2.4 单条路径的分数计算
在开始之前,我们再来做一些约定,前边我们提到了发射分数和转移分数,假设代表发射分数矩阵,代表转移分数矩阵,代表文本序列长度,代表标签的数量。另外为方便书写,我们为每个标签编个 id 号(参考图 5 中涉及到的标签),如图 6 所示。
图 6 Tag 和 Tag Id 对应表
其中,的 shape 为,每行对应着一个文本字词的发射分数,每列代表一个标签,例如,代表取 id 为 1 的标签分数,代表取 id 为 3 的标签分数。的 shape 为,它代表了标签之间相互转移的分数,例如,代表 id 为 3 的标签向 id 为 0 的标签转移分数。
每条路径的分数就是由对应的发射分数和转移分数组合而成的,对于图 5 标记出来的黄色路径来说,的标签是 B-Person,对应的发射分数是,的标签是 I-Person,对应的发射分数是,由 B-Person 向 I-Person 转移的分数是,因此到这一步的分数就是:。
接下来的标签是,由的标签向 I-Person 向的标签 O 转移的概率是,因此到这一步的分数是:,依次类推,我们可以计算完整条路径的分数。假设第个位置对应的标签为,则整条路径的分数计算形式化公式为:
2.5 全部路径的分数计算
2.3 节中的损失函数包括两项,单条真实路径分数的计算和归一化项(如上所述,全部路径分数的,为方便描述,后续直接将个归一化项描述为全部路径之和)的计算。这里你或许会问,现在知道了单条路径分数的计算方式,遍历一下所有的路径算个分数,不就可以轻松算出全部路径之和吗?是的,这在理论上是可行的。
但是,前边我们提到这个路径的数量是个指数级别的量纲,假设我对串包含 50 个字的文本串进行实体识别,标签的数量是 31,那么这个路径的数量将是条,这是真的是难以接受的一件事情,它会远远拖慢模型的训练和预测效率。
因此,我们要换一种高效的思路,这里其实用到了一种被称为前向算法的动态规划,它能帮助我们将图 5 所有路径的和计算,拆解为每个位置的和计算,最终得出所有的路径之和。如果这是你第一次听到这个算法,那也没关系,我会通过示例的方式,为你展现这个算法的工作原理,但是在看这部分内容之前,我们再来回顾一下我们的计算目标,即损失函数中的第 1 项:
另外,为方便描述这个原理,我们来简化下这个问题,假设我们现在在计算图 7 所示的所有路径之和。
图 7 简化版的 CRF 工作图
图 7 中,共包含 2 个标签 0 和 1, 文本串有 3 个单词。我们再来做些约定如下:
, 代表位置的发射分数。
其中,代表位置输出 0 标签的分数, 代表位置输出 1 标签的分数。
, 代表转移矩阵。
其中,代表从 1 转移到 0 的分数,代表从 0 转移到 1 的分数,依次类推。
, 其中各个数值代表到当前位置为止,以位置相应标签结尾的路径分数之和。
以步为例,,其中代表截止到步骤为止,以标签 0 结尾所有的路径分数之和,代表截止到步骤为止,以标签 1 结尾的所有路径分数之和。
这里比较抽象,如图 7 所示,参与步的分数计算的路径包括 4 条,即是下边 4 条路径分数之和,依次如下
恭喜,我们完成了一些枯燥的定义,下边我们来看看如何计算所有路径的分数和吧,这里我们分成 3 步走来解释,首先计算截止到位置,到各个标签的分数(上边的内容)是多少;截止到位置,到各个标签的分数是多少;截止到位置,到各个标签的分数是多少。
第 1 步,截止到位置
当前位置输入的发射分数为:,因为这是序列的起始,显然截止到位置有:。
截止到这一步,将位置的所有标签的分数累计作为所有路径的分数为:
第 2 步,截止到位置
当前步骤涉及到向位置的转移,在这个过程中,位置输入的发射分数为:, 转移概率矩阵为: , 前一个位置各标签的路径累计和。
接下来我们 expand 一下 和 ,力求通过矩阵计算的方式一次完成当前位置各个标签的路径累计,具体如下:
然后我们来计算截止到位置,到不同标签的每条路径的分数:
我们来看一条路径分数的计算,例如, 它代表在的位置标签为 0,在的位置标签为 1,然后通过加上完成了位置 0 标签 向 位置标签 1 的转移。
从上边的结果可以看到,第 1 行代表向当前位置标签 0 的转移路径,第 2 行代表向当前位置标签 1 的转移路径。以第 1 行为例,将第 1 行的路径分数相加,就相当于到当前位置并且以 0 结尾的所有路径之和。
因此,这样我们可以容易地算出当前位置的各个标签的路径累计分数:
最后,我们来算下截止到位置,所有的路径和:
再回顾一下我们的计算目标:,你可以看到如果图 7 最终只到位置,那么上边的这个结果就是我们相求的全部路径之和,或者说是归一化项。
第 3 步,截止到位置
我们再来看下位置的一些输入信息,位置输入的发射分数为:, 转移概率矩阵为: , 前一个位置各标签的路径累计和。
接下来继续 expand 一下 和 ,力求通过矩阵计算的方式一次完成当前位置各个标签的路径累计,具体如下:
然后我们来计算截止到位置,到不同标签的每条路径的分数:
继续按行累加,算出到当前位置的各个标签的路径累计分数:
最后,我们来算下截止到位置,所有的路径和:
显然,这个式子的结果就是最终我们想要的计算目标,损失函数中的第 1 项,共计包含 8 条路径的分数。
2.6 CRF 的 Viterbi 解码
在前边几节,我们讲过了 CRF 的损失函数、单条路径分数的计算、全部路径分数的计算,根据这些内容完全可以进行 BiLSTM+CRF 的训练。但是,我们如何使用 CRF 从全部的路径中解码出得分最高的那条路径呢?
同 2.5 节所述,计算全部路径分数后,选择得分最大的那条路径肯定是不行的。其实这里是使用了一种被称为 Viterbi 的算法,它的思想和 2.5 节介绍的前向算法有些类似,将从全部路径中查找最优路径的过程,拆解为选择每个位置累计的最大路径。如果这是你第一次接触 Viterbi 算法,也不用担心,本节依然会通过示例的方式展现这个算法原理。
我们依然以图 7 为例,解码这全部路径中分数最大的这条(图中橙色显示的这条路径)。在正式介绍之前,我们依然做些约定如下:
, 代表位置的发射分数。
其中,代表位置输出 0 标签的分数, 代表位置输出 1 标签的分数。
, 代表转移矩阵。
其中,代表从 1 转移到 0 的分数,代表从 0 转移到 1 的分数,依次类推。
, 其中各个数值代表到当前位置为止,以当前位置相应标签结尾的路径中,取得最大分数的路径得分。
以位置为例,,其中代表截止到步骤为止,以标签 0 结尾所有的路径中得分最大的路径分数,代表截止到步骤为止,以标签 1 结尾的所有路径中得分最大的路径分数。
这里比较抽象,如图 7 所示,参与步的分数计算的路径包括 4 条,是这 4 条路径中得分最大这一条对应的分数,即下边这一条路径:。
,其中各个数值代表到当前位置为止,以当前位置相应标签结尾的路径中,分数最大的那一条路径在前一个位置的标签索引(每个标签对应的 id 号)。
以位置为例,,其中代表代表截止到步骤为止,以标签 0 结尾所有的路径中得分最大的那条路径在位置的标签索引,同理代表截止到步骤为止,以标签 1 结尾的最大路径在位置的标签索引。
同样,如图 7 所示,在位置,到标签 0 的所有路径中,分数最大的路径是:,因为前一个位置的标签是 1,因此。
恭喜,我们又一次完成了这些枯燥的定义,下边我们来看看如何选择所有路径中得分最大的这一条吧,这里我们同样分成 3 步走来解释,首先计算截止到位置,到各个标签的最大得分(上边的内容)是多少;截止到位置,到各个标签的最大得分是多少;截止到位置,到各个标签的最大得分是多少。
第 1 步,截止到位置
当前位置输入的发射分数为:,因为这是序列的起始,显然截止到位置有:
另外因为起始位置前边没有路径,这里我们使用-1 来初始化:
第 2 步,截止到位置
当前步骤涉及到向位置的转移,在这个过程中,位置输入的发射分数为:, 转移概率矩阵为: , 到前一个位置各标签的最大路径得分为。
接下来按照 2.5 节同样的方式,我们 expand 一下 和 ,力求通过矩阵计算的方式一次完成到当前位置各个标签的所有路径中得分最大的路径分数,具体如下:
然后我们来计算截止到位置,到不同标签的每条路径的分数:
同样地,以第 1 行为例,第 1 行代表到当前位置标签 0 结尾的所有路径的得分,那么第 1 行中分数最大这一条路径,就是到当前位置并且以 0 结尾的所有路径中得分最大的路径。
因此,这样我们可以容易地算出到当前位置的各个标签的最大路径分数:
显然从上边结果中,我们能够分析出到位置各个标签的最大路径,例如到 0 的路径有 和 , 其中较大者就是我们想要的到位置 0 的最大路径。
这里不妨我们做个假设:
因此,我们可以获得位置的索引,这代表在位置,到标签 0 的最大路径的前一个位置的标签是 1, 到标签 1 的最大路径的前一个位置的标签是 0。
第 3 步,截止到位置
我们再来看下位置的一些输入信息,位置输入的发射分数为:, 转移概率矩阵为: , 前一个位置各标签的路径累计和:。
接下来继续 expand 一下 和 ,力求通过矩阵计算的方式一次完成当前位置各个标签的路径累计,具体如下:
然后我们来计算截止到位置,到不同标签的每条路径的分数:
因此,这样我们可以容易地算出到当前位置的各个标签的最大路径分数:
这里我不妨再假设:
上一步我们曾假设:
因此有:
所以位置的索引:
此时:
在图 7 中橘色路径分数最高,其对应的是,因此再假设:
这其实代表在位置的所有标签对应的最大路径中, 0 对应的那条路径是最大的,这条路径也是全局所有路径中分数最大的那一条,是我们要解析出的期望路径。
第 4 步,开始解码标签序列
到现在位置,我们通过记录下了最大路径上的节点,接下来我们可以通过回溯来找出全局所有路径中的最大路径。
首先,在位置所有标签对应的最大路径中, 0 对应的路径分数最大。因此位置对应的标签就是 0。
然后,,因此位置解析出的标签 0,对应的上一位置的标签是 1。
接下来,,因此位置解析出的标签 1,对应的上一位置的标签是 0。
最后,,当解析到这一步的时候,反回的标签肯定是-1,因此这个回溯过程也就结束了。
当回溯完成之后,将解析出的结果倒序排序,就是我们期望的最大路径。以图 7 为例,该路径就是 0 --> 1 --> 0。
恭喜,看到这里,相信你已经懂得了 CRF 的核心原理。江湖虽路远,但总会再见,如对笔者的文章满意,还请多多支持。
Reference[1] 邱锡鹏. 神经网络与深度学习[M]. 北京:机械工业出版社,2021.
[2] 吴飞. 人工智能导论:模型与算法[M]. 北京:高等教育出版社,2020.
3. PLM Fine-tuning 预训练的模型
3.1 目前前沿方法
Transformer-CRF 模型:基于 Transformers 的神经网络结构和条件随机场模型的联合训练,通过提取输入的上下文信息、全局概率建模,结合现有的 BERT 和 RoBERTa 预训练模型,在多语种的命名实体识别任务中有很好的表现。
Pre-trained Language Model Fine-tuning (PLM Fine-tuning):该方法是基于预训练模型和微调技术的思想,利用预训练的模型(如 BERT、RoBERTa 等)作为初始参数,通过在命名实体识别的数据集上进行微调,来提升 NER 的性能。它可以在少量标注数据上快速训练,并在各种语言和领域中展现出优良的泛化能力。
Neural Architecture Search (NAS):利用神经网络搜索算法和强化学习,生成 NN 结构,并进行自动化架构搜索。NAS 可以使模型具有更好的鲁棒性和泛化性能,并在不使用任何人工特征编码的情况下提高命名实体识别的准确性。
这些算法常用于实际应用中,并取得了良好的效果。当然,还有很多其他的 NER 算法,如模板匹配、CRF、SVM 等,每种算法都有自己的优缺点,需要根据具体场景进行选择和组合。
3.2 小样本下 NER
针对小样本问题,可以使用迁移学习或元学习等技术来解决。迁移学习是指将预先训练好的模型应用于新任务中,从而将新任务的训练时间缩短,但前提是预训练模型和待解决的任务有一定的相关性。元学习则是一种针对小样本学习问题的方法,它能够通过学习如何学习来提高模型在少量样本的情况下的泛化能力。
针对小样本 NER 问题,下面介绍两种常用的小样本模型:
Few-shot learning 模型:该模型是一种基于元学习的模型,它可以用较少的数据进行训练,同时在新领域中进行良好的泛化,具有很强的适应性。Few-shot learning 的主要思想是利用少量标注数据来训练一个编码器,通过训练来学习具有较好泛化性能的模型。在 NER 任务中,通过将少量文本做为一个任务,来进行训练,该模型可以在稀缺标注数据的情况下,识别新类别的命名实体。
Adaptive Span 模型:该模型可以自适应地在输入序列中发现实体边界,从而进一步提高命名实体识别的性能。它可以利用现有的 NER 模型和表示学习方法,在少量数据情况下快速训练,并在大规模未标记的数据上表现优秀。Adaptive Span 模型实现了端到端的自适应边界预测,它通过动态地选择每个输入序列中的子区间,来预测给定实体类别的标签。
更多文章请关注公重号:汀丶人工智能
3.3 推荐!实体、关系、属性抽取实战项目合集(含智能标注)
版权声明: 本文为 InfoQ 作者【汀丶人工智能】的原创文章。
原文链接:【http://xie.infoq.cn/article/c7be9a5eea42305834e18f7dd】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论