写点什么

高精度轻量级图像分割 SOTA 模型 PP-LiteSeg 重磅开源!

作者:百度大脑
  • 2022 年 4 月 29 日
  • 本文字数:1891 字

    阅读完需:约 6 分钟

图像分割技术在医疗病灶分析、自动驾驶车道线分割、绿幕人像抠图等领域发挥着举足轻重的作用。相比目标检测、图像分类等技术,图像分割需要将每个像素点进行分类,在精细的图像识别任务中不可替代。


图 1 图像分割应用


正因如此,DeepLabv3、OCRNet、BiseNetv2、Fast-SCNN 等优秀算法层出不穷,然而在实际产业落地过程中往往需要综合考虑硬件性能、精度等多方面因素,对算法的需求也是苛刻的。往往业界算法在保障高识别精度的情况下,就会牺牲算法运行速度;反之追求速度,则会带来精度的大幅度损失。


图 2 各算法速度与精度平衡情况示意


如何能同时实现速度和精度的均衡,在当前云、边、端多场景协同的产业大趋势下高标准满足产业需求,是各届研究人员致力投入的方向。


PP-LiteSeg 就是这样一个同时兼顾精度与速度的 SOTA(业界最佳)语义分割模型。它基于 Cityscapes 数据集,在 1080ti 上精度为 mIoU 72.0 时,速度高达 273.6 FPS(mIoU 77.5 时,FPS 为 102.6),超越现有 CVPR SOTA 模型 STDC,真正实现了精度和速度的 SOTA 均衡。


图 3 PP-LiteSeg 速度与精度


更值得令人惊喜的是,PP-LiteSeg 不仅在开源数据集评测效果优秀,在产业数据集也表现出了惊人的实力!例如在质检、遥感场景,PP-LiteSeg 的精度与高精度、大体积的 OCRNet 持平,而速度却快了近 7 倍!!!


空口无凭,欢迎优秀的你直接试用!(记得 Star 收藏跟进最新状态)


传送门:


https://github.com/PaddlePaddle/PaddleSeg


PP-LiteSeg 结构详解


那 PP-LiteSeg 为何可以拥有这么优秀的效果呢?


其基于编解码架构,提出三个创新模块:灵活的解码模块(FLD)、注意力融合模块(UAFM)、简易金字塔池化模块(SPPM)。具体而言,PP-LiteSeg 模型首先使用轻量级 STDCNet 作为编码模块, 然后将编码模块的输出作为 SPPM 模块的输入,得到具有全局上下文信息的特征图,最后使用 FLD 解码模块从深层到浅层不断融合特征图,得到分割结果。


图 4 PP-LiteSeg 结构图


灵活的解码模块(FLD)


为了消除传统解码模块的冗余,PP-LiteSeg 提出了灵活的解码模块(FLD)。随着层级从深到浅,传统解码模块中特征图的尺寸逐渐增大,通道数保持不变。而 FLD 模块中特征图的通道数逐渐减小,可以平衡不同层的算量。同时,根据编码模块灵活调整解码模块中通道数,平衡编码模块和解码模块的算量,使得整个模型更加高效。


(a)传统解码架构 (b)FLD 解码架构


图 5 传统解码架构与 FLD 解码架构对比


注意力融合模块(UAFM)


PP-LiteSeg 提出了统一注意力融合模块(UAFM)来有效地加强特征表示,而且设计了空间注意力模块(b)和通道注意力模块(c)。空间注意力模块使用输入特征图的空间相互关系来生成权重 α,表示空间维度不同像素点的重要性。通道注意力模块是使用输入特征图的通道相互关系来生成权重 α,表示不同通道的重要性。所以,UAFM 充分利用了输入特征的空间以及通道之间的关系,加强了特征表示。


图 6 (a)UAFM 模块的结构图


(b)空间注意力模块 (c)通道注意力模块


简易金字塔池化模块(SPPM)


上下文融合模块是语义分割模型中不可或缺的一部分。基于 PPM 模块的设计思想,PP-LiteSeg 设计了一种简易金字塔池化模块(SPPM)。SPPM 模块主要操作:


使用空间金字塔池化操作来融合特征图的信息,其中有三个全局池化算子,分别输出1*1、2*2、4*4尺寸的特征图;


对小尺寸的特征图执行卷积和上采样运算,得到通道和尺寸相同的特征图;


将上一步的输出进行相加,执行以个卷积运算后,得到最终的特征图。和传统 PPM 模型相比,SPPM 模块减小了中间特征图的通道数、移除了跳跃连接、使用加法算子替换级联算子。
复制代码


图 7 简易金字塔池化模块(SPPM)


正是基于这些模块的设计与改进,最终 PP-LiteSeg 超越其他方法,在 1080ti 上精度为 mIoU 72.0 时,速度高达 273.6 FPS(mIoU 77.5 时,FPS 为 102.6),实现了精度和速度的 SOTA 平衡。


更多关于 PP-LiteSeg 的内容,请参考:


https://github.com/PaddlePaddle/PaddleSeg/tree/develop/configs/pp_liteseg


为了让开发者们更深入地了解 PP-LiteSeg 这个 SOTA 模型,解决落地应用难点,掌握产业实践的核心能力,飞桨团队精心准备了精品直播课!


4 月 26 日 20:30,百度资深高工将为我们详细介绍精度和速度平衡的 PP-LiteSeg,对其原理及使用方式进行拆解,更有汽车金属垫片缺陷分割实战,加上直播现场互动答疑,还在等什么!抓紧扫码上车吧!


扫码报名直播课,进入技术交流群


【引用说明】


图 1


辅助驾驶图片来源百度地图 APP AR 导航截图
3D 分割数据集来源于 MRISpineSeg spine dataset
人像抠图源于百度飞桨内部工作人员
遥感图像源于中科星图 GEOVIS iBrain 空天大数据智能解译产品
复制代码


图 2-图 7 源于 PP-LiteSeg 论文

用户头像

百度大脑

关注

用科技让复杂的世界更简单 2020.07.15 加入

百度大脑是百度技术多年积累和业务实践的集大成,包括视觉、语音、自然语言处理、知识图谱、深度学习等 AI 核心技术和 AI 开放平台。 即刻获取百度AI相关技术,可访问 ai.baidu.com了解更多!

评论

发布
暂无评论
高精度轻量级图像分割SOTA模型PP-LiteSeg重磅开源!_百度大脑_InfoQ写作社区