SAM 适配下游任务的探究:SAM Adapter
本文分享自华为云社区《SAM适配下游任务的探究:SAM Adapter》,作者:Hint。
近期大模型的涌现给 AI 研究带来显著的发展,META 的工作 Segment Anything(SAM),就是其中一个为图像分割任务设计的基础大模型。SAM 是一种交互型的图像分割大模型,通过提供的 prompt 如点、框、文本描述等粗略的提示,就可以分割出图像中指定的目标,其 demo 的效果十分惊艳。然而在某些特殊场景的图片上并不会带来如此惊艳的效果,可能是由训练数据的差异性导致,比如阴影检测、伪装目标检测。但 SAM 强大的分割能力依然可以作为我们微调模型的基础,更好地为下游任务服务。
本文介绍的方法 SAM Adapter[2],设计了一个 Adapter 模,它可以在不微调 SAM 网络的情况下,通过简单而有效的适配器,将领域特定的信息或视觉提示注入到分割网络中,从而提高 SAM 在特定任务上的性能。该论文在多个任务和数据集上进行了广泛的实验,包括 ISTD 阴影检测数据集、COD10K、CHAMELEON 和 CAMO 伪装物体检测数据集,以及 kvasir-SEG 息肉分割(医学图像分割)数据集。实验结果表明,SAM-Adapter 不仅显著提升了 SAM 的性能,而且在这些任务上达到了最先进的水平。
如上图所示,该模型使用了 SAM 的 Image Encoder 和 Masked Decoder,其中 Image Encoder 冻结了参数,Decoder 是参与梯度回传的。这样可以有效利用 SAM 已经预训练好的分割能力,同时 Decoder 更新参数以适配下游任务。此外作者引入了 Adaptor 模块,用于引入特殊任务的知识,辅助微调模型。Adaptor 的网络结构仅有两层 MLP 层构成,其输入的知识可以是多种多样的,对于文中的任务,其输入可以是纹理信息或者是频率信息等。各种信息用下面的权重来均衡。
作者在多个数据集上进行实验,从以下的实验结果来看,该方法的性能在下游任务中达到 SOTA 效果,相比原始的 SAM 提升效果显著,作者也证明了 Adaptor 模块的有效性。
[1]Kirillov A, Mintun E, Ravi N, et al. Segment anything[J]. arXiv preprint arXiv:2304.02643, 2023.
[2]Chen T, Zhu L, Ding C, et al. SAM Fails to Segment Anything?--SAM-Adapter: Adapting SAM in Underperformed Scenes: Camouflage, Shadow, and More[J]. arXiv preprint arXiv:2304.09148, 2023.
版权声明: 本文为 InfoQ 作者【华为云开发者联盟】的原创文章。
原文链接:【http://xie.infoq.cn/article/602bd07d913f619b370226c65】。文章转载请联系作者。
评论