微软提出通用解码器 X-Decoder,支持图像分割和语言分词
出品人:Towhee 技术团队 王翔宇、顾梦佳
X-Decoder 是一种通用解码模型,可以无缝实现像素级图像分割和语言分词。 它的输入支持两种类型的查询:通用非语义查询和基于文本输入的语义查询,能够在同一语义空间中解码不同的像素和分词级别的输出。凭借新颖的设计,X-Decoder 首次提供了一种统一方式用于支持所有类型的图像分割和各种视觉语言任务。无需任何伪标签,在对有限的分割数据和数百万图像文本对的混合集进行预训练后,X-Decoder 表现出对广泛下游任务(零样本和微调设置)的强大可迁移性。值得注意的是,它在八个数据集上均实现了最优性能。
X-Decoder after pretraining supports all types of image segmentation tasks.
X-Decoder 的框架设计遵循了编码器-解码器结构。它首先会使用一个图像编码器抽取出图片特征,然后使用文本编码器编码文本查询。图像特征、文本查询和多个隐查询在通过 X-Decoder 后,分别输出像素级别的掩码和分词级别的语义。此外,X-Decoder 实现了不同粒度的任务之间的无缝交互,并通过学习一个通用且丰富的像素级视觉语义理解空间而互惠互利。
相关资料:
代码地址:https://github.com/microsoft/X-Decoder
如果你觉得我们分享的内容还不错,请不要吝啬给我们一些鼓励:点赞、喜欢或者分享给你的小伙伴!活动信息、技术分享和招聘速递请关注:https://zilliz.gitee.io/welcome/
如果你对我们的项目感兴趣请关注:
版权声明: 本文为 InfoQ 作者【Zilliz】的原创文章。
原文链接:【http://xie.infoq.cn/article/1756076a2508edc63dd6095c2】。文章转载请联系作者。
评论