恒源云 _ 长尾分布的多标签文本分类平衡方法 (论文学习笔记)

2021 年 11 月 23 日
本文字数：1815 字
阅读完需：约 6 分钟

文章来源 | 恒源云社区（专注人工智能/深度学习云 GPU 服务器训练平台，官方体验网址：https://gpushare.com/center/）

原文地址 | https://bbs.gpushare.com/topic/709/%E9%95%BF%E5%B0%BE%E5%88%86%E5%B8%83%E7%9A%84%E5%A4%9A%E6%A0%87%E7%AD%BE%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB%E5%B9%B3%E8%A1%A1%E6%96%B9%E6%B3%95?_=1637562252462

原文作者 | Mathor

长尾分布各位肯定并不陌生，指的是少数几个类别却有大量样本，而大部分类别都只有少量样本的情况，如下图所示

通常我们讨论长尾分布或者是文本分类的时候只考虑单标签，即一个样本只对应一个标签，但实际上多标签在实际应用中也非常常见，例如个人爱好的集合一共有 6 个元素：运动、旅游、读书、工作、睡觉、美食，一般情况下，一个人的爱好有这其中的一个或多个，这就是典型的多标签分类任务

EMNLP2021 上有一篇名为Balancing Methods for Multi-label Text Classification with Long-Tailed Class Distribution的论文详细探讨了各种平衡损失函数对于多标签分类问题的效果，从最初的 BCE Loss 到 Focal Loss 等，感觉这篇文章更像是平衡损失函数的综述。源码在Roche/BalancedLossNLP

LOSS FUNCTIONS

在 NLP 领域，二值化交叉熵损失（Binary Cross Entropy Loss）常被用来处理多标签文本分类问题，给定一个含有 $N$ 个样本的训练集 $(x^{1}, y^{1}), \dots, (x^{N}, y^{N})$ ，其中 $y^{k} = [y_{1}^{k}, \dots, y_{C}^{k}] \in 0, 1^{C}$ ， $C$ 是类别数量，假设模型对于某个样本的输出为 $z^{k} = [z_{1}^{k}, \dots, z_{C}^{k}] \in R$ ，则 BCE 损失的定义如下：

其中， $p_{i}^{k} = σ (z_{i}^{k})$ ，对于多标签分类问题来说我们需要将模型的输出值压缩到[0,1]之间，所以需要用到 sigmoid 函数

原本单标签问题，真实值 $y^{k}$ 相当于一个 onehot 向量，而对于多标签来说，真实值 $y^{k}$ 相当于一个 onehot 向量中多了一些 1，例如[0,1,0,1]，表示该样本同时是第 1 类和第 3 类

这种朴素的 BCE 非常容易收到标签不平衡的影响，因为头部样本比较多，可能所有头部样本的损失总和为 100，尾部所有样本的损失加起来都不超过 10。下面，我们介绍三种替代方法解决多标签文本分类中长尾数据的类别不均衡问题。这些平衡方法主要思想是重新加权 BCE，使罕见的样本-标签对得到合理的"关注"

Focal Loss (FL)

通过在 BCE 上乘一个可调整的聚焦参数 $γ \geq 0$ ，Focal Loss 将更高的损失权重放在"难分类"的样本上，这些样本对其真实值的预测概率很低。对于多标签分类任务，Focal Loss 定义如下：

实际上论文关于 Focal Loss 的介绍只有这么多，如果想了解 Focal Loss 更详细的参数介绍，可以看我的这篇文章Focal Loss详解

Class-balanced focal loss (CB)

通过估计有效样本数，CB Loss 进一步重新加权 Focal Loss 以捕捉数据的边际递减效应，减少了头部样本的冗余信息。对于多标签任务，我们首先计算出每种类别的频率 nin_ini，那么对于每个类别来说，都有其平衡项 $r_{CB}$

其中， $β \in [0, 1)$ 控制着有效样本数量的增长速度，损失函数变为

Distribution-balanced loss (DB)

通过整合再平衡权重以及头部样本容忍正则化（negative tolerant regularization, NTR），Distribution-balanced Loss 首先减少了标签共现的冗余信息（这在多标签分类的情况下是很关键的），然后对"容易分类的"样本（头部样本）分配较低的权重

首先，为了重新平衡权重，在单标签的情况下，一个样本可以通过采样概率 $P_{i}^{C} = \frac{1}{C} \frac{1}{n _{i}}$ 来加权，但是在多标签的情况下，如果采用同样的策略，一个具有多标签的样本会被过度采样，概率是 $P^{I} = \frac{1}{c} \sum_{y_{i}^{k} = 1} \frac{1}{n _{i}}$ 。因此，我们需要结合两者重新平衡权重

我们可以将上述权重变得更光滑一些（有界）

此时， $\overset{r}{^}_{DB}$ 的值域为 $[α, α + 1]$ 。rebalanced-FL (R-FL) 损失函数为

然后，NTR 对同一标签头部和尾部样本进行不同的处理，引入一个比例因子 $λ$ 和一个内在的特定类别偏差 $v_{i}$ 以降低尾部类别的阈值，避免过度抑制

对于尾部样本来说， $q_{i}^{k} = σ (z_{i}^{k} - v_{i})$ ；对于头部样本来说， $q_{i}^{k} = σ (λ (z_{i}^{k} - v_{i}))$ 。 $v_{i}$ 可以在训练开始时最小化损失函数来估计，其比例系数为κ\kappaκ，类别先验信息 $p_{i} = n_{i} / N$ ，则