恒源云 _ 社区大佬的论文小记 (Flooding-X)

作者：恒源云

2022 年 2 月 08 日
本文字数：2522 字
阅读完需：约 8 分钟

文章来源 | 恒源云社区

原文地址 | Flooding-X: 超参数无关的 Flooding 方法

原文作者 | Mathor

所谓大佬，就是只要你肯挖，总有你不知道的知识点在某个地方等着你来学习！

往下看，这不就来了吗！

正文开始：

ICML2020 的论文《Do We Need Zero Training Loss After Achieving Zero Training Error?》提出了一种 Flooding 方法，用于缓解模型过拟合，详情可以看我的文章《我们真的需要把训练集的损失降到零吗？》。这里简单过一下，论文提出了一个超参数 $b$ ，并将损失函数改写为

其中， $b$ 是预先设定的阈值，当 $L (θ)$ > $b$ 时 $\tilde{L} (θ) = L (θ)$ ，这时就是执行普通的梯度下降；而 $L (θ)$ < $b$ 时 $\tilde{L} (θ)$ =2 $b$ - $L (θ)$ ，注意到损失函数变号了，所以这时候是梯度上升。因此，总的来说就是以 $b$ 为阈值，低于阈值时反而希望损失函数变大。论文把这个改动称为 Flooding

这样做有什么效果呢？论文显示，在某些任务中，训练集的损失函数经过这样处理后，验证集的损失能出现 “二次下降（Double Descent）”，如下图

我们可以假设梯度先下降一步后上升一步，学习率为 $ε$ ，通过泰勒展开可以得到

其中， $θ n$ $表示第$ n $次迭代的参数，$ $g (θ n - 1) = \nabla_{θ} L (θ n - 1)$ $表示损失对参数$ $θ n - 1$ $的梯度。式 (2) 的结果相当于以$ $\frac{ε ^{2}}{2}$ $为学习率、损失函数为梯度惩罚$ $∣ g (θ) ∣ ∣^{2} = ∣ ∣ \nabla_{θ} L (θ) ∣ ∣^{2} ∣$ 的梯度下降

详细的推导过程见《我们真的需要把训练集的损失降到零吗？》

ACHILLES’ HEEL OF FLOODING

Flooding 的阿喀琉斯之踵在于超参数 $b$ ，我们需要花非常多的时间寻找最佳的阈值 $b$ ，这并不是一件容易的事

Achilles’ Heel（阿喀琉斯之踵）阿喀琉斯是古希腊神话故事中的英雄人物，刀枪不入，唯一的弱点是脚后跟（踵）。后用于来比喻某东西的致命缺陷

下图展示了使用 BERT 在 SST-2 数据集上不同的阈值 $b$ 对结果的影响（黄色区域是最佳结果）。可以看出， $b$ 的设置对结果的影响非常大

GRADIENT ACCORDANCE

ACL2022 的投稿有一篇名为《Flooding-X: Improving BERT’s Resistance to Adversarial Attacks via Loss-Restricted Fine-Tuning》的文章，以"梯度一致性"作为开启 Flooding 的"阀门"，而不再采用超参数 $b$ 。具体来说，我们首先定义包含参数 $θ$ 的模型 $f$ ，考虑一个样本 $x$ 以及真实标签 $y$ ，它们的损失为 $L (f (θ, x), y)$ ，损失关于参数的梯度为

其中，式(3)的负值就是参数 $θ$ 更新的方向。现在我们考虑两个样本 $(x_{1}, y_{1}), (x_{2}, y_{2})$ 的情况，根据上述定义，样本 1 的梯度为

对于样本 1 来说，参数更新所导致的损失变化为

将 $f (θ, x_{1})$ 通过泰勒展开变形得

$\frac{f ( θ - ε g 1 , x 1 ) - f ( θ , x 1 ) }{ε g 1} = \frac{\partial f}{\partial θ}$

我们将 $ε g_{1} \frac{\partial f}{\partial θ}$ 记作 $T (x_{1})$ ，并对 $L (f (θ, x_{1}), y_{1})$ 做类似的泰勒展开得

根据式(6)可以推出第一个等号，约等于是从泰勒展开推导的，具体来说 $\frac{L ( A + T ( x 1 ) , y 1 ) - L ( A , y 1 ) }{T ( x 1 )} = L'$

将式(7)带入式(5)得

类似的，参数根据样本 $(x_{1}, y_{1})$ 更新后，在样本 $(x_{2}, y_{2})$ 上的损失差为 $Δ L_{2}$ = $- ε g_{1} \cdot g_{2}$

值得注意的是，根据定义， $Δ L_{1}$ 是负的，因为模型是对于 $(x_{1}, y_{1})$ 更新的，自然就会导致其损失的降低。如果 $Δ L_{2}$ 也是负的，那么在 $(x_{1}, y_{1})$ 上更新的模型被认为对 $(x_{2}, y_{2})$ 有积极的影响。上面的等式表明，这种共同关系相当于两个样本的梯度 $g_{1}, g_{2}$ 之间的乘积，我们称其为梯度一致性（Gradient Accordance）

COARSE-GRAINED GRADIENT ACCORDANCE

上面提到的可以看作是样本级别的梯度一致性，由于其粒度太细，计算起来非常复杂，因此我们将其应用到 batch 级别的粗粒度上进行计算

考虑训练过程中包含 $n$ 个样本的 mini-batch $B_{0}$ ，其中样本 $X = x_{1}, x_{2}, \dots, x_{n}$ ，标签 $y = y_{1}, y_{2}, \dots, y_{n}$ ，其中 $\in c_{1}, c_{2}, \dots, c_{k}$ ，即有 $k$ 个类别。这些样本可以根据它们的标签拆分成 $k$ 组（每组内的样本标签是一样的）

由此可以将 $B_{0}$ 拆分成多个子 batch 的并集， $B_{0} = B_{0}^{1} \cup B_{0}^{2} \cup \dots B_{0}^{k}$ 。我们定义两个子 batch $B_{0}^{1}$ 和 $B_{0}^{2}$ 的类一致性分数为

其中， $g_{1}$ 是模型在样本集 $B_{0}^{1}$ 上的损失对参数的梯度， $cos (g_{1}, g_{2}) = (g_{1} / ∣ g_{1} ∣) \cdot (g_{2} / ∣ g_{2} ∣)$ 类一致性可以用于判断：对类别 $c_{1}$ 的样本集 $B_{0}^{1}$ 进行梯度下降是否也会减少类别 $c_{2}$ 所对应的样本集 $B_{0}^{2}$ 的损失

假设一个 Epoch 中有 $N$ 个 batch，那么 $B_{s}$ 与 $B_{t}$ 的批一致性分数定义如下：

批一致性可以通过评估一个批次的参数更新对另一个批次的影响，量化两个批次的学习一致性。更具体地说， $S_{batch accd}$ 如果是正的，表示这两个批次处于相同的学习节奏下，每个批次更新的模型对它们都有好处

任意一个 Epoch 的梯度一致性最终定义为

ANALYSIS AND DISCUSSION

实验结果这里就不放了，简单说一下就是作者使用了 TextFooler、BERT-Attack、TextBugger 三种攻击手段，以 PGD、FreeLB、TAVAT 等方法为 Baseline 进行对比，结果表明使用 Flooding-X 效果很好

从下图可以看出，当梯度一致性指标从负数变为正数时，测试集损失也开始上升，说明梯度一致性这个指标可以很好的当作是过拟合的信号

个人总结

2020 年提出的 Flooding 本身就是一个非常有意思的 Trick，可惜原论文作者也苦于超参数 $b$ 的选择，因此其应用不算广泛。ACL2022 这篇论文提出了梯度一致性的概念，让模型自己感知什么时候该进行 Flooding，避免了超参数的选择问题

REFERENCES

发布于: 刚刚阅读数: 2

恒源云

关注

专注人工智能云GPU服务器训练平台 2020.12.25 加入

还未添加个人简介

发布

暂无评论

创作场景