2022 全球 AI 模型周报
本周介绍了 5 个计算机视觉领域的 SoTA 模型,均于最近发表于 2022 年顶会 CPVR 和 ECCV:
RepMLP 带 MLP 进军智能驾驶, ConvNeXt 用 Transformer 里的技术改进卷积, WaveViT 加入小波变换改进视觉 Transformer , EclipSE 处理长视频离不开视听结合, GraphVid 将图神经网络应用到视频理解。
如果你觉得我们分享的内容还不错,请不要吝啬给我们一些免费的鼓励:点赞、喜欢、或者分享给你的小伙伴。
https://github.com/towhee-io/towhee/tree/main/towhee/models
CVPR 2022 新模型 RepMLP,用 MLP 主宰计算机视觉模型
出品人:Towhee 技术团队 顾梦佳
RepMLP 改善了全连接层在视觉任务中的表现,并且将 MLP 成功地对接到下游任务中。实验结果结果表明 RepMLP 比其他 MLP 模型更快、更强、训练代价更低。另外,RepMLP 是第一个可以直接用于 Cityscapes 语义分割(智能驾驶场景)的 MLP backbone。
Architecture of RepMLPNet
与卷积层相比,全连接(FC)层更适于建模长程依赖,但不擅长捕捉局部特征。RepMLP 模型中提出一种新的结构重参数化(Structural Re-parameterization)方法 Localtiy Injection,用于解决这一问题。它将卷积核的参数等效合并并行的 FC 中去,从而将局部先验注入 FC 层。此外,RepMLP 的核心是一种包含了三个全连接层的 MLP 模块(RepMLP Block)与一种层次化的 MLP 模型(RepMLPNet)。与同时期的多个 MLP 不同,RepMLPNet 是层次化设计的,这使其可以自然地接入下游任务(如语义分割)的 backbone。
相关资料:
模型代码:https://github.com/towhee-io/towhee/tree/main/towhee/models/repmlp
更多资料:https://zhuanlan.zhihu.com/p/524878219;https://www.cityscapes-dataset.com/
ConvNeXt:Transformer 只是吃了技术迭代的红利?纯卷积模型也可以!
出品人:Towhee 技术团队 顾梦佳
ConvNeXt 系列模型完全由标准卷积模块构建而成,其准确性和可扩展性方面与 Transformers 竞争激烈,在 ImageNet 图像数据集上达到了 87.8% 的 top-1 准确性。而在 COCO 数据集的目标检测任务和 ADE20K 数据集的语义分割任务上,ConvNeXt 的性能已经超越 Swin Transformers。
ConvNet following hierarchical ViT structure
ConvNeXt 以改进卷积性能为导向,重新探索了 Transformers 系列模型的框架设计。它在 Transformers 的训练方法和结构设计中找到改进卷积的方向和方法,在保持传统卷积模型的简洁性和易用性的同时,达到高效与精准。ConvNeXt 学习和使用了 Transformer 模型的训练技术,增强的训练方法能够将 ResNet-50 模型的性能从提高 2.7%。利用改进后重新训练的标准 ResNet 为起点,ConvNeXt 按照 hierarchical vision Transformer (例如 Swin-T)的架构设计,重新构建了“现代化”的卷积模型框架。
相关资料:
超越 SoTA!WaveViT 用小波变换优化多尺度视觉 Transformer
出品人:Towhee 技术团队 张晨、顾梦佳
WaveViT 是一种改良的新型视觉 Transformer,通过引入小波理论实现可逆、无损失的下采样,能够更好地平衡效率和精度。通过对多个视觉任务(如图像识别、物体检测和实例分割)进行广泛的实验,Wave-ViT 证明了它的优越性,其性能超过了目前最先进的 ViT 骨干模型,展现出强有竞争力的 FLOPs。
An illustration of Wavelets transforms & blocks
多尺度视觉 Transformer(Multiscale ViT)已经成为计算机视觉任务的强大支柱,而 Transformer 中的自注意力机制是按输入 patch 数量的四次方扩展的。为了大幅降低计算成本,现有的解决方案通常会采用对键/值的下采样操作(例如,平均池化)。然而,这种过于激进的下采样设计是不可逆转的,并且不可避免地导致信息丢失,特别是对于物体中的高频成分(如纹理细节)。在小波理论的启发下,一个新的小波视觉 Transformer(WaveViT)诞生了。该结构用统一的方式把小波变换和自注意力机制结合起来,使自注意力学习能够在键/值上进行无损的下采样,有利于追求在效率与准确率上更好的权衡。此外,反小波变换也被用来加强自注意力的输出,拥有更大感受野的局部环境。
相关资料:
视听结合,EclipSE 带来更高效的文本-长视频检索
出品人:Towhee 技术团队 张晨、顾梦佳
与以往为短视频检索(5-15 秒)设计的方法不同,EclipSE(Efficient CLIP with Sound Encoding) 用音频数据替代部分视频特征,能够在更长的视频中捕捉复杂的人类行为。实验证明,该方法比单纯的长视频检索方法快 2.92 倍,内存效率也提高了 2.34 倍。除了更高的效率与更低的成本外,EclipSE 在多个公开的长视频数据集(ActivityNet、QVHighlights、YouCook2、DiDeMo、Charades)上也取得了更高的文本-视频检索精度。
EclipSE for long-range text-to-video retrieval: audiovisual attention block in the Transformer architecture
标准的纯视频检索方法在处理长视频时,会提取出数百个密集的视频帧,导致了巨大的计算成本。为了解决这个问题,EclipSE 选择用简洁的音频线索取代部分视频。这些线索能够简单概括动态的音频事件,并且处理成本更低。通过增加一个统一的视听转换模块,模型能够从视频帧和音频流中捕捉互补的线索,使流行的 CLIP 模型适用于视听视频环境。
相关资料:
图神经网络 GraphVid 仅需几个节点就能理解视频
出品人:Towhee 技术团队 王翔宇、顾梦佳
图神经网络 GraphVid 用更简单的图特征表示视频,实现视频理解任务。通过在公开可用的数据集 Kinetics-400 和 Charades 上的实验, GraphVid 证明了其仅需十分之一的计算资源,就能达到具有竞争力的结果。 这表明图神经网络在视频理解领域能够有效地权衡成本和性能,带来更高的效益。
The flow of GraphVid
GraphVid 提出了一种简洁的视频特征表示,能够将感知上有意义的特征编码成图形。这种视频表征可以充分利用视频中的冗余信息,以此减少计算量。该方法首先通过将超像素视作图形节点,构建基于超像素的视频图形表征,并且在相邻的超像素之间创建时空连接。然后,模型利用图卷积网络处理该表征,预测所需的输出。这样我们就可以用更少的参数训练模型,从而减少训练时间和所需的计算资源。
相关资料:
如果你觉得我们分享的内容还不错,请不要吝啬给我们一些鼓励:点赞、喜欢或者分享给你的小伙伴!
活动信息、技术分享和招聘速递请关注:https://zilliz.gitee.io/welcome/
如果你对我们的项目感兴趣请关注:
版权声明: 本文为 InfoQ 作者【Zilliz】的原创文章。
原文链接:【http://xie.infoq.cn/article/fcc8678ee1882e14f8a95f8c9】。文章转载请联系作者。
评论