特定领域知识图谱融合方案:学以致用 - 问题匹配鲁棒性评测比赛验证【四】
特定领域知识图谱融合方案:文本匹配算法之预训练模型 SimBert、ERNIE-Gram
文本匹配任务在自然语言处理中是非常重要的基础任务之一,一般研究两段文本之间的关系。有很多应用场景;如信息检索、问答系统、智能对话、文本鉴别、智能推荐、文本数据去重、文本相似度计算、自然语言推理、问答系统、信息检索等,但文本匹配或者说自然语言处理仍然存在很多难点。这些自然语言处理任务在很大程度上都可以抽象成文本匹配问题,比如信息检索可以归结为搜索词和文档资源的匹配,问答系统可以归结为问题和候选答案的匹配,复述问题可以归结为两个同义句的匹配。
0.前言:特定领域知识图谱融合方案
本项目主要围绕着特定领域知识图谱(Domain-specific KnowledgeGraph:DKG)融合方案:文本匹配算法、知识融合学术界方案、知识融合业界落地方案、算法测评 KG 生产质量保障讲解了文本匹配算法的综述,从经典的传统模型到孪生神经网络“双塔模型”再到预训练模型以及有监督无监督联合模型,期间也涉及了近几年前沿的对比学习模型,之后提出了文本匹配技巧提升方案,最终给出了 DKG 的落地方案。这边主要以原理讲解和技术方案阐述为主,之后会慢慢把项目开源出来,一起共建 KG,从知识抽取到知识融合、知识推理、质量评估等争取走通完整的流程。
0.1 前置参考项目
前置参考项目
1.特定领域知识图谱融合方案:技术知识前置【一】-文本匹配算法
https://blog.csdn.net/sinat_39620217/article/details/128718537
2.特定领域知识图谱融合方案:文本匹配算法 Simnet、Simcse、Diffcse【二】
https://blog.csdn.net/sinat_39620217/article/details/128833057
3.特定领域知识图谱融合方案:文本匹配算法之预训练 Simbert、ERNIE-Gram 单塔模型等诸多模型【三】
https://blog.csdn.net/sinat_39620217/article/details/129026570
4.特定领域知识图谱融合方案:学以致用-问题匹配鲁棒性评测比赛验证【四】https://blog.csdn.net/sinat_39620217/article/details/129026193
NLP 知识图谱项目合集(信息抽取、文本分类、图神经网络、性能优化等)
https://blog.csdn.net/sinat_39620217/article/details/128805154
2023 计算机领域顶会以及 ACL 自然语言处理(NLP)研究子方向汇总
https://blog.csdn.net/sinat_39620217/article/details/128897539
0.2 结论先看
仿真结果如下:
SimCSE 模型适合缺乏监督数据,但是又有大量无监督数据的匹配和检索场景。
相比于 SimCSE 模型,DiffCSE 模型会更关注语句之间的差异性,具有精确的向量表示能力。DiffCSE 模型同样适合缺乏监督数据,但是又有大量无监督数据的匹配和检索场景。
明显看到有监督模型中 ERNIE-Gram 比之前所有模型性能的优秀
1.SimBERT(UniLM)
预训练模型按照训练方式或者网络结构可以分成三类:
一是以 BERT[2]为代表的自编码(Auto-Encoding)语言模型,Autoencoding Language Modeling,自编码语言模型:通过上下文信息来预测当前被 mask 的 token,代表有 BERT、Word2Vec(CBOW)等.它使用 MLM 做预训练任务,自编码预训模型往往更擅长做判别类任务,或者叫做自然语言理解(Natural Language Understanding,NLU)任务,例如文本分类,NER 等。
content
缺点:由于训练中采用了[MASK]标记,导致预训练与微调阶段不一致的问题,且对于生成式问题的支持能力较差优点:能够很好的编码上下文语义信息,在自然语言理解(NLU)相关的下游任务上表现突出
二是以 GPT[3]为代表的自回归(Auto-Regressive)语言模型,Aotoregressive Lanuage Modeling,自回归语言模型:根据前面(或后面)出现的 token 来预测当前时刻的 token,代表模型有 ELMO、GTP 等,它一般采用生成类任务做预训练,类似于我们写一篇文章,自回归语言模型更擅长做生成类任务(Natural Language Generating,NLG),例如文章生成等。
缺点:只能利用单向语义而不能同时利用上下文信息优点:对自然语言生成任务(NLG)友好,符合生成式任务的生成过程
三是以 encoder-decoder 为基础模型架构的预训练模,例如 MASS[4],它通过编码器将输入句子编码成特征向量,然后通过解码器将该特征向量转化成输出文本序列。基于 Encoder-Decoder 的预训练模型的优点是它能够兼顾自编码语言模型和自回归语言模型:在它的编码器之后接一个分类层便可以制作一个判别类任务,而同时使用编码器和解码器便可以做生成类任务。
这里要介绍的统一语言模型(Unified Language Model,UniLM)[1]从网络结构上看,它的结构是和 BERT 相同的编码器的结构。但是从它的预训练任务上来看,它不仅可以像自编码语言模型那样利用掩码标志的上下文进行训练,还可以像自回归语言模型那样从左向右的进行训练。甚至可以像 Encoder-Decoder 架构的模型先对输入文本进行编码,再从左向右的生成序列。
UniLM 是在微软研究院在 BERT 的基础上提出的预训练语言模型,被称为统一预训练语言模型。使用三种特殊的 Mask 的预训练目标,从而使得模型可以用于 NLG,同时在 NLU 任务获得和 BERT 一样的效果它可以完成单向、序列到序列和双向预测任务,可以说是结合了 AR 和 AE 两种语言模型的优点,UniLM 在文本摘要、生成式问题回答等领域取得了 SOTA 的成绩
[1] Dong, Li, et al. "Unified language model pre-training for natural language understanding and generation." Advances in Neural Information Processing Systems 32 (2019).
[2] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
[3] Radford, A., Narasimhan, K., Salimans, T. and Sutskever, I., 2018. Improving language understanding by generative pre-training.
[4] Song, Kaitao, et al. "Mass: Masked sequence to sequence pre-training for language generation."arXiv preprint arXiv:1905.02450(2019).
1.1 UniLM 模型详解
原始论文:Unified Language Model Pre-training for Natural Language Understanding and Generation
刚介绍的三种不同的类型的预训练架构往往需要使用不同的预训练任务进行训练。但是这些任务都可以归纳为根据已知的内容预测未知的内容,不同的是哪些内容是我们已知的,哪些是需要预测的。UniLM 最核心的内容将用来训练不同架构的任务都统一到了一种类似于掩码语言模型的框架上,然后通过一个变量掩码矩阵 M(Mask Matrix) 来适配不同的任务。UniLM 所有核心的内容可以概括为下图。
模型框架如上图所示,在预训练阶段,UniLM 模型通过三种不同目标函数的语言模型(包括:双向语言模型,单向语言模型和序列到序列语言模型),去共同学习一个 Transformer 网络;为了控制对将要预测的 token 可见到的上下文,使用了不同的 self-attention mask 来实现。即通过不同的掩码来控制预测单词的可见上下文词语数量,实现不同的模型表征.
1.1.1 模型输入
首先对于一个输入句子,UniLM 采用了 WordPiece 的方式对其进行了分词。除了分词得到的 token 嵌入,UniLM 中添加了位置嵌入(和 BERT 相同的方式)和用于区分文本对的两个段的段嵌入(Segment Embedding)。为了得到整句的特征向量,UniLM 在句子的开始添加了[SOS]标志。为了分割不同的段,它向其中添加了[EOS]标志。具体例子可以参考图中的蓝色虚线框中的内容。包括 token embedding,position embedding,segment embedding,同时 segment embedding 还可以作为模型采取何种训练方式(单向,双向,序列到序列)的一种标识
1.1.2 网络结构
如图 1 红色虚线框中的内容,UniLM 使用了 层 Transformer 的架构,为了区分使不同的预训练任务可以共享这个网络,UniLM 在其中添加了掩码矩阵的运算符。具体的讲,我们假设输入文本表示为 $\left{\boldsymbol{x}i\right}{i=1}^{|x|}\boldsymbol{H}^0=\left[\boldsymbol{x}1, \cdots, \boldsymbol{x}{|x|}\right]L\boldsymbol{H}^l=\text { Transformer }\left(\boldsymbol{H}^{l-1}\right), l \in[1, L]\mathbf{H}_1=\left[\mathbf{h}1^{\mathbf{l}}, \ldots, \mathbf{h}{|\mathbf{x}|}^{\mathbf{1}}\right]\text{Transformer}_ll\text{Transformer}_l\mathbf A_ll$层为例,此时 Transformer 转化为式(1)到式(3)所示的形式。
$\begin{gathered}\boldsymbol{Q}_l=\boldsymbol{H}^{l-1} \boldsymbol{W}_l^Q \quad \boldsymbol{K}_l=\boldsymbol{H}^{l-1} \boldsymbol{W}_l^K \quad \boldsymbol{V}_l=\boldsymbol{H}^{l-1} \boldsymbol{W}l^V \ \boldsymbol{M}{i j}= \begin{cases}0, & \text { allow to attend } \ -\infty & \text { prevent from attending }\end{cases} \ \boldsymbol{A}_l=\operatorname{softmax}\left(\frac{\boldsymbol{Q}_l \boldsymbol{K}_l^{\top}}{\sqrt{d_k}}+\boldsymbol{M}\right) \boldsymbol{V}_l\end{gathered}$
其中 分别使用参数矩阵分别线性地投影到三元组 Query,Key,Value 中, 是我们前面多次提到过的用于控制预训练任务的掩码矩阵。通过根据掩码矩阵确定一对 tokens 是否可以相互 attend,覆盖被编码的特征,让预测时只能关注到与特定任务相关的特征,从而实现了不同的预训练方式.
1.1.3 任务统一
UniLM 共有 4 个预训练任务,除了图 1 中所示的三个语言模型外,还有一个经典的 NSP 任务,下面我们分别介绍它们。
双向语言模型:
MASK 完形填空任务,输入的是一个文本对
双向语言模型是图 1 的最上面的任务,它和掩码语言模型一样就是利用上下文预测被掩码的部分。,与 Bert 模型一致,在预测被掩蔽 token 时,可以观察到所有的 token,如上图所示,使用全 0 矩阵来作为掩码矩阵,模型需要根据所有的上下文分析,所以是一个 0 矩阵。
单向语言模型:
MASK 完形填空任务,输入的是一个单独的文本
单向语言模型可以使从左向右也可以是从右向左,图 1 的例子是从左向右的,也就是 GPT[3]中使用的掩码方式。在这种预测方式中,模型在预测第 t 时间片的内容时只能看到第 t 时间片之前的内容,因此是一个上三角全为 的上三角矩阵(图 1 中第二个掩码矩阵的阴影部分)。同理,当单向语言模型是从右向左时,是一个下三角矩阵。在这种训练方式中,观测序列分为从左到右和从右向左两种,从左到右,即仅通过被掩蔽 token 的左侧所有本文来预测被掩蔽的 token;从右到左,则是仅通过被掩蔽 token 的右侧所有本文来预测被掩蔽的 token,如上图所示,使用上三角矩阵来作为掩码矩阵,阴影部分为,空白部分为 0,
Seq-to-Seq 语言模型:
MASK 完形填空任务,输入的是一个文本对
如果被掩蔽 token 在第一个文本序列中,那么仅可以使用第一个文本序列中所有 token,不能使用第二个文本序列的任何信息;如果被掩蔽 token 在第二个文本序列中,那么使用一个文本序列中所有 token 和第二个文本序列中被掩蔽 token 的左侧所有 token 预测被掩蔽 token
如上图所示,在训练的时候,一个序列由[SOS]S_1[EOS]S_2[EOS]组成,其中 S1 是 source segments,S2 是 target segments。随机 mask 两个 segment 其中的词,其中如果 masked 是 source segment 的词的话,则它可以 attend to 所有的 source segment 的 tokens,如果 masked 的是 target segment,则模型只能 attend to 所有的 source tokens 以及 target segment 中当前词和该词左边的所有 tokens,这样模型可以隐形地学习到一个双向的 encoder 和单向 decoder(类似 transformer)
在 Seq-to-Seq 任务中,例如机器翻译,我们通常先通过编码器将输入句子编码成特征向量,然后通过解码器将这个特征向量解码成预测内容。UniLM 的结构和传统的 Encoder-Decoder 模型的差异非常大,它仅有一个多层的 Transformer 构成。在进行预训练时,UniLM 首先将两个句子拼接成一个序列,并通过[EOS]来分割句子,表示为:[SOS]S1[EOS]S2[EOS]。在编码时,我们需要知道输入句子的完整内容,因此不需要对输入文本进行覆盖。但是当进行解码时,解码器的部分便变成一个从左向右的单向语言模型。因此对于句子中的第 1 个片段(S1 部分)对应的块矩阵,它是一个 0 矩阵(左上块矩阵),对于的句子第 2 个片段(S2 部分)的对应的块矩阵,它是上三角矩阵的一部分(右上块矩阵)。因此我们可以得到图 1 中最下面的 。可以看出,UniLM 虽然采用了编码器的架构,但是在训练 Seq-to-Seq 语言模型时它也可以像经典的 Encoder-to-Decoder 那样关注到输入的全部特征以及输出的已生成的特征。
NSP:UniLM 也像 BERT 一样添加了 NSP 作为预训练任务。对于双向语言模型(Bidirectional LM),与 Bert 模型一样,也进行下一个句子预测。如果是第一段文本的下一段文本,则预测 1;否则预测 0
1.1.4 训练与微调
训练:在训练时,1/3 的时间用来训练双向语言模型,1/3 的时间用来训练单向语言模型,其中从左向右和从右向左各站一半,最后 1/3 用了训练 Encoder-Decoder 架构。
微调:对于 NLU 任务来说,我们可以直接将 UniLM 视作一个编码器,然后通过[SOS]标志得到整句的特征向量,再通过在特征向量后添加分类层得到预测的类别。对于 NLG 任务来说,我们可以像前面介绍的把句子拼接成序列“[SOS]S1[EOS]S2[EOS]”。其中 S1 是输入文本的全部内容。为了进行微调,我们会随机掩码掉目标句子 S2 的部分内容。同时我们可会掩码掉目标句子的[EOS],我们的目的是让模型自己预测何时预测[EOS]从而停止预测,而不是预测一个我们提前设置好的长度。
网络设置:24 层 Transformer,1024 个 hidden size,16 个 attention heads
参数大小:340M
初始化:直接采用 Bert-Large 的参数初始化
激活函数:GELU,与 bert 一样
dropout 比例:0.1
权重衰减因子:0.01
batch_size:330
混合训练方式:对于一个 batch,1/3 时间采用双向语言模型的目标,1/3 的时间采用 Seq2Seq 语言模型目标,最后 1/3 平均分配给两种单向学习的语言模型,也就是 left-to-right 和 right-to-left 方式各占 1/6 时间
MASK 方式:总体比例 15%,其中 80%的情况下直接用[MASK]替代,10%的情况下随机选择一个词替代,最后 10%的情况用真实值。还有就是 80%的情况是每次只 mask 一个词,另外 20%的情况是 mask 掉 bi-gram 或者 tri-gram
1.1.5 小结
UniLM 和很多 Encoder-Decoder 架构的模型一样(例如 MASS)像统一 NLU 和 NLG 任务,但是无疑 UniLM 的架构更加优雅。像 MASS 在做 NLU 任务时,它只会采用模型的 Encoder 部分,从而丢弃了 Decoder 部分的全部特征。UniLM 有一个问题是在做机器翻译这样经典的 Seq-to-Seq 任务时,它的掩码机制导致它并没有使用表示[SOS]标志对应的全句特征,而是使用了输入句子的序列。这个方式可能缺乏了对整句特征的捕获,从而导致生成的内容缺乏对全局信息的把控。此外,UniLM 在五个 NLG 数据集上的表现优于以前的最新模型:CNN/DailyMail 和 Gigaword 文本摘要、SQuAD 问题生成、CoQA 生成问题回答和 DSTC7 基于对话生成,其优势总结如下:
三种不同的训练目标,网络参数共享
网络参数共享,使得模型避免了过拟合于某单一的语言模型,使得学习出来的模型更加具有普适性
采用了 Seq2Seq 语言模型,使得其在能够完成 NLU 任务的同时,也能够完成 NLG 任务
1.2 SimBert
1.2.1 融合检索和生成的 SimBERT 模型
基于 UniLM 思想、融检索与生成于一体的 BERT 模型。
权重下载:https://github.com/ZhuiyiTechnology/pretrained-models
UniLM 的核心是通过特殊的 Attention Mask 来赋予模型具有 Seq2Seq 的能力。假如输入是“你想吃啥”,目标句子是“白切鸡”,那 UNILM 将这两个句子拼成一个:[CLS] 你 想 吃 啥 [SEP] 白 切 鸡 [SEP],然后接如图的 Attention Mask:
换句话说,[CLS] 你 想 吃 啥 [SEP]这几个 token 之间是双向的 Attention,而白 切 鸡 [SEP]这几个 token 则是单向 Attention,从而允许递归地预测白 切 鸡 [SEP]这几个 token,所以它具备文本生成能力。
UNILM 做 Seq2Seq 模型图示。输入部分内部可做双向 Attention,输出部分只做单向 Attention。
Seq2Seq 只能说明 UniLM 具有 NLG 的能力,那前面为什么说它同时具备 NLU 和 NLG 能力呢?因为 UniLM 特殊的 Attention Mask,所以[CLS] 你 想 吃 啥 [SEP]这 6 个 token 只在它们之间相互做 Attention,而跟白 切 鸡 [SEP]完全没关系,这就意味着,尽管后面拼接了白 切 鸡 [SEP],但这不会影响到前 6 个编码向量。再说明白一点,那就是前 6 个编码向量等价于只有[CLS] 你 想 吃 啥 [SEP]时的编码结果,如果[CLS]的向量代表着句向量,那么它就是你 想 吃 啥的句向量,而不是加上白 切 鸡后的句向量。
由于这个特性,UniLM 在输入的时候也随机加入一些[MASK],这样输入部分就可以做 MLM 任务,输出部分就可以做 Seq2Seq 任务,MLM 增强了 NLU 能力,而 Seq2Seq 增强了 NLG 能力,一举两得。
1.2.2 SimBert
SimBERT 属于有监督训练,训练语料是自行收集到的相似句对,通过一句来预测另一句的相似句生成任务来构建 Seq2Seq 部分,然后前面也提到过[CLS]的向量事实上就代表着输入的句向量,所以可以同时用它来训练一个检索任务,如下图
假设 SENT_a 和 SENT_b 是一组相似句,那么在同一个 batch 中,把[CLS] SENT_a [SEP] SENT_b [SEP]和[CLS] SENT_b [SEP] SENT_a [SEP]都加入训练,做一个相似句的生成任务,这是 Seq2Seq 部分。
另一方面,把整个 batch 内的[CLS]向量都拿出来,得到一个 bxd 的句向量矩阵 V(b 是 batch_size,d 是 hidden_size),然后对 d 维度做 l2 归一化,得到新的 V,然后两两做内积,得到 bxv 的相似度矩阵 VV^T,接着乘以一个 scale(我们取了 30),并 mask 掉对角线部分,最后每一行进行 softmax,作为一个分类任务训练,每个样本的目标标签是它的相似句(至于自身已经被 mask 掉)。说白了,就是把 batch 内所有的非相似样本都当作负样本,借助 softmax 来增加相似样本的相似度,降低其余样本的相似度。
详细介绍请看:https://kexue.fm/archives/7427
部分结果展示:
1.2.3 SimBER 训练预测
SimBERT 的模型权重是以 Google 开源的 BERT 模型为基础,基于微软的 UniLM 思想设计了融检索与生成于一体的任务,来进一步微调后得到的模型,所以它同时具备相似问生成和相似句检索能力。
数据集使用的是 LCQMC 相关情况参考:https://aistudio.baidu.com/aistudio/projectdetail/5423713?contributionType=1
待预测数据集部分展示:
这里要注意数据格式。没有标签的
按照 predict.py.py 进行预测得到相似度,部分展示:
以阈值 0.9 以上为相似度判断,得到结果和标注答案一致 1010100.
2.Sentence Transformers (ERNIE/BERT/RoBERTa/Electra)
随着深度学习的发展,模型参数的数量飞速增长。为了训练这些参数,需要更大的数据集来避免过拟合。然而,对于大部分 NLP 任务来说,构建大规模的标注数据集非常困难(成本过高),特别是对于句法和语义相关的任务。相比之下,大规模的未标注语料库的构建则相对容易。为了利用这些数据,我们可以先从其中学习到一个好的表示,再将这些表示应用到其他任务中。最近的研究表明,基于大规模未标注语料库的预训练模型(Pretrained Models, PTM) 在 NLP 任务上取得了很好的表现。
近年来,大量的研究表明基于大型语料库的预训练模型(Pretrained Models, PTM)可以学习通用的语言表示,有利于下游 NLP 任务,同时能够避免从零开始训练模型。随着计算能力的发展,深度模型的出现(即 Transformer)和训练技巧的增强使得 PTM 不断发展,由浅变深。
百度的预训练模型 ERNIE 经过海量的数据训练后,其特征抽取的工作已经做的非常好。借鉴迁移学习的思想,我们可以利用其在海量数据中学习的语义信息辅助小数据集(如本示例中的医疗文本数据集)上的任务。以 ERNIE 为代表的模型 Fine-tune 完成文本匹配任务。
使用预训练模型 ERNIE 完成文本匹配任务,大家可能会想到将 query 和 title 文本拼接,之后输入 ERNIE 中,取 CLS 特征(pooled_output),之后输出全连接层,进行二分类。如下图 ERNIE 用于句对分类任务的用法:
然而,以上用法的问题在于,ERNIE 的模型参数非常庞大,导致计算量非常大,预测的速度也不够理想。从而达不到线上业务的要求。针对该问题,可以使用 PaddleNLP 工具搭建 Sentence Transformer 网络。
**Sentence Transformer 采用了双塔(Siamese)的网络结构。Query 和 Title 分别输入 ERNIE,共享一个 ERNIE 参数,得到各自的 token embedding 特征。之后对 token embedding 进行 pooling(此处教程使用 mean pooling 操作),之后输出分别记作 u,v。之后将三个表征(u,v,|u-v|)拼接起来,进行二分类。网络结构如上图所示。同时,不仅可以使用 ERNIR 作为文本语义特征提取器,可以利用 BERT/RoBerta/Electra 等模型作为文本语义特征提取器**
论文参考:Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks https://arxiv.org/abs/1908.10084
那么 Sentence Transformer 采用 Siamese 的网路结构,是如何提升预测速度呢?
Siamese 的网络结构好处在于 query 和 title 分别输入同一套网络。如在信息搜索任务中,此时就可以将数据库中的 title 文本提前计算好对应 sequence_output 特征,保存在数据库中。当用户搜索 query 时,只需计算 query 的 sequence_output 特征与保存在数据库中的 title sequence_output 特征,通过一个简单的 mean_pooling 和全连接层进行二分类即可。从而大幅提升预测效率,同时也保障了模型性能。
关于匹配任务常用的 Siamese 网络结构可以参考:https://blog.csdn.net/thriving_fcl/article/details/73730552
2.1 模型简介
针对中文文本匹配问题,开源了一系列模型:
BERT(Bidirectional Encoder Representations from Transformers)中文模型,简写 bert-base-chinese, 其由 12 层 Transformer 网络组成。
ERNIE(Enhanced Representation through Knowledge Integration),支持 ERNIE 1.0 中文模型(简写 ernie-1.0)和 ERNIE Tiny 中文模型(简写 ernie-tiny)。 其中 ernie 由 12 层 Transformer 网络组成,ernie-tiny 由 3 层 Transformer 网络组成。
RoBERTa(A Robustly Optimized BERT Pretraining Approach),支持 12 层 Transformer 网络的 roberta-wwm-ext。
在 LQCMC 数据集下各个模型评估:
2.2 模型训练
以中文文本匹配公开数据集 LCQMC 为示例数据集,可以运行下面的命令,在训练集(train.tsv)上进行模型训练,并在开发集(dev.tsv)验证
部分结果展示:
代码示例中使用的预训练模型是 ERNIE,如果想要使用其他预训练模型如 BERT,RoBERTa,Electra 等,只需更换 model 和 tokenizer 即可。
更多预训练模型,参考transformers
程序运行时将会自动进行训练,评估,测试。同时训练过程中会自动保存模型在指定的 save_dir 中。 如:
NOTE:
如需恢复模型训练,则可以设置 init_from_ckpt, 如 init_from_ckpt=checkpoints/model_100/model_state.pdparams。如需使用 ernie-tiny 模型,则需要提前先安装 sentencepiece 依赖,如 pip install sentencepiece
输出结果:
1010100 和 Simbert 以及标注真实标签一致
修改代码 api 接口参考:https://www.paddlepaddle.org.cn/documentation/docs/zh/api/paddle/argmax_cn.html#argmax
2.3 小结
基于双塔 Point-wise 范式的语义匹配模型 SimNet 和 Sentence Transformers, 这 2 种方案计算效率更高,适合对延时要求高、根据语义相似度进行粗排的应用场景。
关于 Sentence Transformer 更多信息参考www.SBERT.net以及论文:
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks (EMNLP 2019)
Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation (EMNLP 2020)
3.预训练模型 ERNIE-Gram 的单塔文本匹配
文本匹配任务数据每一个样本通常由两个文本组成(query,title)。类别形式为 0 或 1,0 表示 query 与 title 不匹配; 1 表示匹配。
基于单塔 Point-wise 范式的语义匹配模型 ernie_matching: 模型精度高、计算复杂度高, 适合直接进行语义匹配 2 分类的应用场景。
基于单塔 Pair-wise 范式的语义匹配模型 ernie_matching: 模型精度高、计算复杂度高, 对文本相似度大小的序关系建模能力更强,适合将相似度特征作为上层排序模块输入特征的应用场景。
基于双塔 Point-Wise 范式的语义匹配模型 这 2 种方案计算效率更高,适合对延时要求高、根据语义相似度进行粗排的应用场景。
Pointwise:输入两个文本和一个标签,可看作为一个分类问题,即判断输入的两个文本是否匹配。
Pairwise:输入为三个文本,分别为 Query 以及对应的正样本和负样本,该训练方式考虑到了文本之间的相对顺序。
单塔/双塔
单塔:先将输入文本合并,然后输入到单一的神经网络模型。
双塔:对输入文本分别进行编码成固定长度的向量,通过文本的表示向量进行交互计算得到文本之间的关系。
本项目使用语义匹配数据集 LCQMC 作为训练集 , 基于 ERNIE-Gram 预训练模型热启训练并开源了单塔 Point-wise 语义匹配模型, 用户可以直接基于这个模型对文本对进行语义匹配的 2 分类任务
代码结构说明
数据集简介:
LCQMC 是百度知道领域的中文问题匹配数据集,目的是为了解决在中文领域大规模问题匹配数据集的缺失。该数据集从百度知道不同领域的用户问题中抽取构建数据。
3.1 模型训练与预测
以中文文本匹配公开数据集 LCQMC 为示例数据集,可以运行下面的命令,在训练集(train.tsv)上进行单塔 Point-wise 模型训练,并在开发集(dev.tsv)验证。
预测结果部分展示:
如果想要使用其他预训练模型如 ERNIE, BERT,RoBERTa,Electra 等,只需更换 model 和 tokenizer 即可。
NOTE:
如需恢复模型训练,则可以设置 init_from_ckpt, 如 init_from_ckpt=checkpoints/model_100/model_state.pdparams。如需使用 ernie-tiny 模型,则需要提前先安装 sentencepiece 依赖,如 pip install sentencepiece
预测结果部分展示:
3.2 基于静态图部署预测
模型导出
使用动态图训练结束之后,可以使用静态图导出工具 export_model.py 将动态图参数导出成静态图参数。 执行如下命令:
部分结果展示:
3.3 小结
SimCSE 模型适合缺乏监督数据,但是又有大量无监督数据的匹配和检索场景。
相比于 SimCSE 模型,DiffCSE 模型会更关注语句之间的差异性,具有精确的向量表示能力。DiffCSE 模型同样适合缺乏监督数据,但是又有大量无监督数据的匹配和检索场景。
明显看到有监督模型中 ERNIE-Gram 比之前所有模型性能的优秀
参考文章:https://aistudio.baidu.com/aistudio/projectdetail/5423713?contributionType=1
4.学以致用--千言问题匹配鲁棒性评测比赛验证
特定领域知识图谱融合方案:学以致用-问题匹配鲁棒性评测比赛验证
本项目主要讲述文本匹配算法的应用实践、并给出相应的优化方案介绍如:可解释学习等。最后文末介绍了知识融合学术界方案、知识融合业界落地方案、算法测评 KG 生产质量保障等,涉及对比学习和文本。
https://blog.csdn.net/sinat_39620217/article/details/129026193
5.特定领域知识图谱(Domain-specific KnowledgeGraph:DKG)融合方案(重点!)
在前面技术知识下可以看看后续的实际业务落地方案和学术方案
关于图神经网络的知识融合技术学习参考下面链接:PGL图学习项目合集&数据集分享&技术归纳业务落地技巧[系列十]
从入门知识到经典图算法以及进阶图算法等,自行查阅食用!
文章篇幅有限请参考专栏按需查阅:NLP知识图谱相关技术业务落地方案和码源
5.1 特定领域知识图谱知识融合方案(实体对齐):优酷领域知识图谱为例
方案链接:https://blog.csdn.net/sinat_39620217/article/details/128614951
5.2 特定领域知识图谱知识融合方案(实体对齐):文娱知识图谱构建之人物实体对齐
方案链接:https://blog.csdn.net/sinat_39620217/article/details/128673963
5.3 特定领域知识图谱知识融合方案(实体对齐):商品知识图谱技术实战
方案链接:https://blog.csdn.net/sinat_39620217/article/details/128674429
5.4 特定领域知识图谱知识融合方案(实体对齐):基于图神经网络的商品异构实体表征探索
方案链接:https://blog.csdn.net/sinat_39620217/article/details/128674929
5.5 特定领域知识图谱知识融合方案(实体对齐)论文合集
方案链接:https://blog.csdn.net/sinat_39620217/article/details/128675199
论文资料链接:两份内容不相同,且按照序号从小到大重要性依次递减
知识图谱实体对齐资料论文参考(PDF)+实体对齐方案+特定领域知识图谱知识融合方案(实体对齐)
知识图谱实体对齐资料论文参考(CAJ)+实体对齐方案+特定领域知识图谱知识融合方案(实体对齐)
5.6 知识融合算法测试方案(知识生产质量保障)
方案链接:https://blog.csdn.net/sinat_39620217/article/details/128675698
6. 总结
文本匹配任务在自然语言处理中是非常重要的基础任务之一,一般研究两段文本之间的关系。有很多应用场景;如信息检索、问答系统、智能对话、文本鉴别、智能推荐、文本数据去重、文本相似度计算、自然语言推理、问答系统、信息检索等,但文本匹配或者说自然语言处理仍然存在很多难点。这些自然语言处理任务在很大程度上都可以抽象成文本匹配问题,比如信息检索可以归结为搜索词和文档资源的匹配,问答系统可以归结为问题和候选答案的匹配,复述问题可以归结为两个同义句的匹配。
本项目主要围绕着特定领域知识图谱(Domain-specific KnowledgeGraph:DKG)融合方案:文本匹配算法、知识融合学术界方案、知识融合业界落地方案、算法测评 KG 生产质量保障讲解了文本匹配算法的综述,从经典的传统模型到孪生神经网络“双塔模型”再到预训练模型以及有监督无监督联合模型,期间也涉及了近几年前沿的对比学习模型,之后提出了文本匹配技巧提升方案,最终给出了 DKG 的落地方案。这边主要以原理讲解和技术方案阐述为主,之后会慢慢把项目开源出来,一起共建 KG,从知识抽取到知识融合、知识推理、质量评估等争取走通完整的流程。
SimCSE 模型适合缺乏监督数据,但是又有大量无监督数据的匹配和检索场景。
相比于 SimCSE 模型,DiffCSE 模型会更关注语句之间的差异性,具有精确的向量表示能力。DiffCSE 模型同样适合缺乏监督数据,但是又有大量无监督数据的匹配和检索场景。
明显看到有监督模型中 ERNIE-Gram 比之前所有模型性能的优秀
项目参考链接:
UniLM 详解:https://zhuanlan.zhihu.com/p/584193190
原论文:Unified Language Model Pre-training for Natural Language Understanding and Generation:https://arxiv.org/pdf/1905.03197.pdf
UniLM 模型详解:https://www.jianshu.com/p/22e3cc4842e1
苏神:融合检索和生成的 SimBERT 模型:https://kexue.fm/archives/7427
simbert:https://github.com/PaddlePaddle/PaddleNLP/blob/develop/examples/text_matching/simbert/README.md
simbert:https://github.com/ZhuiyiTechnology/simbert
开源预训练语言模型合集 :https://github.com/ZhuiyiTechnology/pretrained-models
版权声明: 本文为 InfoQ 作者【汀丶】的原创文章。
原文链接:【http://xie.infoq.cn/article/95c418e7cfb5af075e98c3292】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论