【AAAI 2024】M2SD:通过特征空间预构建策略重塑小样本类增量学习
一、文章介绍
小样本类增量学习(Few-shot Class Incremental Learning, FSCIL)代表了机器学习领域中一个高度挑战性的议题,其核心目标在于能够在仅有限的数据支持下识别新类别,同时保留对已学习类别的认知,而无须重新训练整个模型。这一目标在模型需适应新类别的同时使用有限训练数据的情况下尤为艰巨。
针对上述挑战,我们提出了一种创新性策略,称为多重混合自蒸馏(Multiple Mixing Self-Distillation, M2SD)。该策略特别设计了一种双分支架构,旨在有效扩展特征空间,以纳入新的类别。更进一步,我们引入了一种特征增强机制,通过自蒸馏过程将增强的特征反馈给基础网络,从而在引入新类别的同时,显著提升模型的分类性能。训练阶段完成后,系统将仅保留主网络部分,用于对新类别实例进行准确分类,这一策略确保了在不损害模型效率的条件下,实现对新旧类别的高效识别。
图-1 与 CIFAR100、CUB200 和 miniImageNet 这三个主流基准数据集上的 SOTA 工作进行了比较。Session 0 表示基础训练阶段,Session 1 表示第一次增量过程,后续以此类推。
二、出发点
小样本类增量学习任务核心面临的挑战是如何同时应对小样本学习中的过拟合问题(Overfitting)以及类增量学习中的灾难性遗忘问题(Catastrophic forgetting),这两个问题相互交织,共同影响模型的学习效率和最终性能。
小样本学习场景下,由于数据极度有限,模型更易学习到样本的特异性,增加了过拟合的风险。引入类增量学习需求时,即模型需不断学习新类别数据,使过拟合问题更加复杂,因模型既要从少量数据中学习新知识,又要保持对旧知识的记忆,这在有限数据情境下易导致新数据过拟合。同时,类增量学习中的灾难性遗忘问题也特别明显。尝试学习新类别少量数据时,新信息可能干扰旧类别信息,导致先前学习知识的遗忘。因此,即便模型在新类别数据上适应良好,过拟合和灾难性遗忘的双重影响下,其整体性能可能下降,无法保持多类别识别的一致性。
针对以上的挑战,大量现有研究通过在类增量过程中引入更加严格的正则化,致力于微调新模型参数以最小化对原始模型的影响,从而在学习新类知识的同时,最大程度保留旧类知识。然而,与这些传统正则化方法不同的是,FACT(Forward Compatible Few-Shot Class-Incremental Learning, 2022CVPR)理念提出了一种前瞻性的解决方案,即通过为新数据的到来做好准备,类似于软件更新中的向前兼容性,着重于在小样本类增量学习的基础学习阶段(Base Session)构建一个适用于后续增量学习阶段(Incremental Sessions)的特征空间。
受到 FACT 理念的启发,我们提出了一种创新的方法——多重混合自蒸馏(Multiple Mixing Self-Distillation for Few-shot Class-Incremental Learning, M2SD),旨在为类增量学习阶段准备一个具有高度可扩展性和包容性的特征空间。整体思想可以参考图-2。
图-2 这是一个示意图,展示了我们的方法在 FSCIL 中的提升效果。我们的方法可以显著减少类内距离,增加类间距离,并为添加的类别提供更好的间隔。
M2SD 方法通过利用多尺度特征提取和融合技术,为每个数据实例提取并合成不同尺度的特征,以全面捕捉实例的多维特征。这种特征的综合相较于以往研究中单一尺度的特征,使得特征模块能够更深入地理解实例的多方面特性,进而提高模型的包容性。进一步地,我们引入了一种双分支“虚拟类”机制,以增强特征提取模块的可扩展性。通过对双分支“虚拟类”的优化,模型能够预见并适应潜在的新类别,从而提前为未来可能加入的新类别预留特征空间。这一策略不仅提高了模型对新类别的适应能力,也为持续的类增量学习提供了坚实的基础,确保了模型在面对新旧知识的挑战时的鲁棒性和灵活性。
三、算法框架
方法的整体框架如图-3 所示。我们提出的方法分为三个关键阶段,其中前两个阶段集中于 Base Session,而第三个阶段则专注于 Incremental Sessions。本方法的核心在于第二阶段,它是整个学习过程的关键环节。本文将着重介绍这一阶段的细节和实现,展示其在整个学习框架中扮演的核心角色。
图-3 方法框架分为两个主要部分:Base session 和 Incremental sessions。Base session 分为两个阶段。一个是通用模型预训练阶段(General model pre-trainining),另一个是 M2SD 阶段,由两个自蒸馏模块组成。Incremental sessions 只有一个阶段,即分类器更新(Classifter updating)。
3.1 多分支虚拟类别混合蒸馏(Multi Branch Virtual Classes Mixing Distillation)
受到以往研究的启发,我们采用了一种创新的方法,通过引入多实例构建来自不同集成视角的“虚拟类”,旨在为未来新类别的加入预留特征空间。在我们的多分支框架中,使用的是 Mixup 和 CutMix,以实现不同的目标。
Mixup 通过对配对实例进行线性插值,生成“虚拟”实例,重点在于创造较大的多样性,这一点对于“虚拟类”的构建至关重要(公式-1)。此方法通过混合不同实例的特征,促进模型学习到更泛化的特征表示,为新类别的接入提供了灵活的特征空间。与 Mixup 相辅相成,CutMix 采用了剪切和粘贴配对图像的方式,更加注重于生成具有现实感的实例。这种方法通过在图像中直接融合不同类别的局部区域,模拟了更加复杂的现实世界场景,从而增强了模型对于真实性的捕捉能力(公式-2)。
3.2 自蒸馏与注意力增强(Self-Distillation with Attention Enhancement)
四、实验
4.1 分类实验
在我们的研究中,我们主要将基于知识蒸馏的方法与其他领先技术(SOTA)进行了对比分析。我们的实验结果涵盖了三个主要数据集,结果汇总展示在图-1 中。这些结果明显表明,我们提出的方法在性能上超越了当前的 SOTA 方法。具体而言,对于 CUB200 数据集,我们的方法在各个阶段的平均性能提升超过了 2.0%。在 CIFAR100 数据集上,我们实现了平均超过 2.1%的性能提升。特别是在 miniImageNet 数据集上,我们的方法以平均超过 SOTA 方法 3.2%的显著优势表现最为突出。
表-1 详细列出了我们的方法与先前研究在 miniImageNet 数据集上各个 session 表现的比较。其中,三种方法的结果是基于我们自己复现的实现获得的,而其他方法的数据则直接引用自相应研究的发表文章。
4.2 可视化分析
图-4 两个 t-SNE 的距离坐标尺度是相同的。a 部分是基线方法的增量结果。基线方法使用交叉熵损失来训练整个 Base session,然后 Incremental Sessions 使用我们相同的分类器更新策略。b 部分是我们方法的增量结果。
在我们的分析中,我们采用了 t-SNE 来可视化特征空间的分布,确保了两个 t-SNE 图的距离坐标尺度保持一致。具体地:
在 Part(a)中,我们展示了采用基线方法的增量学习结果。该基线方法在整个 Base session 中使用交叉熵损失进行训练,并在随后的 Incremental Sessions 中采用了与我们方法相同的分类器更新策略。
Part(b)则展示了我们方法的增量学习结果,提供了一个直观的对比,展现了我们的方法如何优化和改进特征空间的分布。
通过这种对比,我们能够清楚地展示我们的方法相较于传统基线方法在增量学习任务上的优势,特别是在特征表示和类别分离方面的显著提升。这不仅证明了我们方法的有效性,也强调了其在处理复杂学习任务时的实用价值。
表-2 在基于特征向量的分析中,我们的方法相较于基线方法实现了显著的性能改善:平均类内距离降低了 27%,同时平均类间距离提高了 22%。
在基于特征向量的分析中,我们的方法相较于基线方法实现了显著的性能改善:平均类内距离降低了 27%,同时平均类间距离提高了 22%。这一结果不仅展示了我们方法在增强模型区分不同类别能力方面的有效性,也突出了其在优化特征表示以促进更好的类别分隔上的优势。通过减少类内差异同时扩大类间差异,我们的方法显著提升了模型的泛化能力和分类性能,证明了其在处理高度挑战性的学习任务中的实用价值和优越性。
4.3 消融实验
五、总结与展望
为了有效应对小样本类增量学习问题,我们的方法首先引入了双分支虚拟类蒸馏策略,旨在扩展特征空间,以便它能够同时容纳现有的类别及未来可能加入的类别。我们通过数值分析和视觉化手段验证了这一策略的有效性。进一步地,我们采纳了特征增强和自我蒸馏技术,以充分挖掘“虚拟类”特征的潜力并提升特征空间的兼容性。这些技术共同作用,使我们能够构建出适应 FSCIL 挑战的特征空间。
● 论文标题:
M2SD: Multiple Mixing Self-Distillation for Few-Shot Class-Incremental Learning
● 论文作者:
林今豪、吴梓恒、林炜丰、黄俊、罗荣华
评论