恒源云 _LLD: 内部数据指导的标签去噪方法【ACL 2022】

2021 年 12 月 16 日
本文字数：1620 字
阅读完需：约 5 分钟

原文作者 | Mathor

大佬发文太勤快，再不搬运，我自己都不好意思了，所以今天给大家带来新的内容啦～

正文开始：

很多数据集中的标签都存在错误，即便它们是由人来标注的，错误标签的存在会给模型训练带来某些负面影响。目前缓解这种影响有诸如删除错误标签、降低其权重等方法。ACL2022 有一篇名为《A Light Label Denoising Method with the Internal Data Guidance》的投稿提出了一种基于样本内部指导的方法解决这个问题

先前有研究表明同一类别的样本在本质上是相似和相关的，不同类别的样本存在明显差异。在文本分类任务中，两个有着相似内容的句子应该被预测为同一个类别，但是实际情况并不总是这样。当训练数据面临一定程度的噪声时，这个问题可能会更加严重，因为模型只收到标签的指导/监督。这就自然而然提出了一个问题：除了标签之外，我们能否从训练样本之间的关系寻求指导？

以文本分类数据为例，有 $n$ 个样本的数据集可以被定义为

其中， $y_{i} \in c_{1}, c_{2}, \dots, c_{m}$ 表示共有 $m$ 类

CONTEXTUAL REPRESENTATION

我们首先需要一个指标判断两个句子是否相似。目前有两大类文本相似度计算方法，第一种是基于传统的符号表征，例如编辑距离、Jaccard Similarity Coeffieient 以及 Earth Mover’s Distance；第二种是将文本映射为稠密的向量，然后计算它们的向量相似度。第一种方法过于依赖 token 的表面信息，第二种方法需要使用外部数据对模型进行预训练，而这个外部数据和我们的任务数据可能不是同一领域的。因此作者基于 Postive Pointwise Mutual Information (PPMI)提出了一个新的上下文表征方法

首先，我们用一个长度为 2 的滑动窗口统计数据集中所有 token 的共现矩阵 $C$ 。 $C_{w_{i}, w_{j}}$ 表示前一个词是 $w_{i}$ ，后一个词是 $w_{j}$ 出现的次数，然后我们计算 $C$ 的 PPMI 矩阵 $E$ ：

其中， $P (w_{i}), P (w_{j}), P (w_{i}, w_{j})$ 分别是从共现矩阵 $C$ 中计算得到的。最终，向量 $E_{w_{i}}$ 是词 $w_{i}$ 的表示

WORD WEIGHT

由于不同的词对于句子含义的贡献不同，我们更关注那些对分类更有帮助的词，而不是一些常见的词（例如 a, the, of）。作者提出一个计算词 $w_{i}$ 权重的算法：

其中，ccc 是词 $w_{i}$ 出现频率最高的类别， $p_{c}^{w_{i}}$ 是类别 ccc 中单词 $w_{i}$ 的样本数， $p_{\tilde{c}}^{w_{i}}$ 是除了类别 $c$ 之外所有类别中单词 $w_{i}$ 的样本数， $∣ p_{c} ∣ ∣_{1}$ 是类别 $c$ 的样本数， $α$ 是一个小的平滑值（例如 0.1）。