逃不开的安迪 - 比尔定律,在智能机器人时代该如何破解?
智能终端总逃不开安迪-比尔定律,无论硬件性能有多大提升,都会被软件的更新换代消耗殆尽。人类对美好生活的追求是无止境的,这也决定了软件的更新换代不会停止,决定了终端算力的持续稀缺。为了解决这一问题,智能硬件产业界由此走出了“复杂问题上云解决”和“算法轻量化以适配终端”两条主流的解决路径。
在“算法轻量化以适配终端”这条道路上,优必选科技深耕多年,伴随着机器人产业的商业化实践,也摸索出了一批卓有成效的算法轻量化方法论。相关研究成果已应用于公司研发的机器人,同时研究院团队基于这一研发成果创作的论文《RA Loss: Relation-Aware Loss for Robust Person Re-identification》(用于鲁棒行人重识别的关系感知损失函数),被第 16 届亚洲计算机视觉会议(The 16th Asian Conference on Computer Vision, ACCV2022)收录。ACCV 是两年一度的领先国际会议,主要由亚洲计算机视觉联合会主办,该会议为研究人员、开发人员和从业者提供了一个交流计算机视觉及相关领域的新问题、解决方案和技术的重要平台,并征集高质量的原创研究进行发表。
论文原标题:RA Loss: Relation-Aware Loss for Robust Person Re-identification
下载链接:
该篇论文提出了用于鲁棒行人重识别的关系损失函数,相比现有算法,新算法能以更少的算力实现同等的识别性能。以下是本论文的核心观点:
现有用于行人重识别任务的基于关系的损失函数往往由两个步骤组成:首先,构造正样本对和负样本对;然后,对正负样本对施加约束以提高类内紧致性和类间分离性。然而,在一次优化过程中,传统的基于关系的损失函数往往只考虑几个样本对的信息,而忽略了所有样本对所包含的更为宏观的信息。这将不可避免地带来对间差异性问题(intra-pair variation),即不同的同类型样本对的收敛状态不一致。
针对上述分析,我们提出了关系感知损失函数(Relation-Aware Loss,简称 RA Loss)。RA Loss 通过利用样本对之间的关系来缓解对间差异性问题,因而得名关系感知损失函数。关系感知损失函数由两个约束组成,其一为宏观约束(Macro-constraint),其二为微观约束(Micro-constraint)。简言之,宏观约束从宏观角度提高正样本对和负样本对之间的类间分离性(Inter-class separability),即使得两种样本对分得足够开;微观约束则从微观角度分别作用于正样本对和负样本对,其作用在于提高两类样本对的类内紧致性(Intra-class compactness)。两个约束互为补充、相互合作,有效地解决了对间差异性问题,进而提高模型所提取的行人图像特征的鲁棒性(Robustness)和表征能力(Representation Ability)。
实验证明,本文提出的 RA Loss 可以有效地提升行人重识别模型在目前已有的三个公开数据集上的性能,能够在受限的算力下使用更小的模型实现同等的准确率效果。
方法介绍
1. 对间不一致问题
与普通的图像分类不同,行人重识别是一个零样本学习(zero-shot learning,指识别从未见过的数据类别)问题,即训练阶段和测试阶段的行人身份是不重合的。因此,现有行人重识别模型一般使用度量学习(Metric Learning) 的损失函数来辅助训练模型,常见的有对比损失函数(Contrastive Loss)、三元组损失函数(Triplet Loss)、四元组损失函数(Quadruplet Loss)。例如,三元组损失的输入为一个特征三元组{fa, fp, fn},其中 fa, fp, fn 分别为基准图像特征、正样本图像特征和负样本图像特征。三元组损失约束基准图像特征和正样本图像特征之间的距离 D{fa, fp}与约束基准图像特征和正样本图像特征之间的距离 D{fa, fn}的差值大于一个阈α,从而达到增大类内相似度、减小类间相似度的优化目标。
图-1 intra-pair variation 的图像示例 (a,b,c) 三个正样本对,分别表示十分相似、相似、不相似的样本对。(d,e,f)三个负样本对,分别表示十分相似、相似、不相似的样本对。
然而,如图-1(a,b,c)所示,由于拍摄角度、光照变化以及行人检测的错误等原因,两张同一个行人的图像(即正样本对图像)可能相似,也可能表现出明显的外观差异。类似的,如图-1(d,e,f)所示,由于不同行人可能身着相似的、不同的衣服,两张不同行人的图像(即负样本对图像)的外观可能十分相似,也可能差异明显。此即为行人重识别任务体现出来的对间不一致问题。
2. 宏观约束
常见的度量学习函数在优化行人重识别模型的时候,一次优化过程往往只考虑若干个样本对的信息,而忽略了同一类的所有样本对所体现出来的全局信息。因此,我们提出了宏观约束。简言之,宏观约束利用同一类的所有样本对体现出来的全局信息来提高正样本对和负样本对之间的类间分离性,即使得两种样本对从宏观的角度分得足够开。
宏观约束由两个步骤组成。首先,我们分别计算正样本对和负样本对的样本对中心(pair center):
这里,P 和 N 分别表示正样本对和负样本对的样本对数量,D(fi p1, fi p2)表示第 i 个正样本对的余弦距离,D(fi n1, fi n2)表示第 i 个负样本对的余弦距离。
然后,如图-2(a)所示,提高正样本对和负样本对之间的类间分离性,宏观约束要求两个对中心分隔的足够远:
图-2 (a)宏观约束作用于两个对中心,使得两者分隔的足够远,(b)微观约束作用于每个样本对,使得两类样本对各自更为紧致。
3. 微观约束
如图-2(a)所述,宏观约束施加于两个对中心,其作用在于使得两类样本对分离的足够远,但是,这尚未解决样本对的对间不一致问题。基于上述分析,我们提出了微观约束,用于优化两类样本对的类内紧致性。
微观约束由两个步骤组成。首先,我们从正样本对和负样本对中选择出“不合格的”样本对:
这里,Spos 和 Sneg 分别表示正样本对和负样本对的方差。
然后,如图-2(b)所示,微观约束作用于这些挑选出来的“不合格的”样本对,促使他们往各自类中心的方向靠拢:
综合宏观约束和微观约束,本文提出的 RA Loss 可以总结为
实验与分析
为了验证本文提出的 RA Loss 的性能优越性,本文在已有的三个大型公开数据集(即 Market-1501,CUHK03 和 DukeMTMC-reID)上对本文提出的 RA Loss 进行实验验证。所有实验均遵循论文中的实验设置,此外,我们从定量和定性两方面对所提出的 RA Loss 进行验证。
1. 定量分析——数值结果
表 1 总结了使用本文提出的 RA Loss 训练得到的行人重识别模型和其他论文中的模型的性能对比。由于不同的方法采用不同的策略来提取行人图像的特征,因此,为了更为公平地比较,我们将这些方法分为基于全局特征的方法和基于组件特征的方法,这两类方法在表格中分别记为 HF-based 和 PF-based。
第一,在数据集 Market-1501 上,RA Loss 取得了与其他业界先进模型相当的相当的性能,然而,RA Loss 只使用简单的 PCB 来提取行人图像特征,而其他方法使用更为负责的模型来提取行人图像特征。因此,RA Loss 有着更低的模型复杂度,能够以更高的效率提取行人图像特征。
第二,在数据集 DukeMTMC-ReID 上,RA Loss 的性能超过了其他所有的基于组件特征的方法和基于全局特征的方法,包括两个最新的基于 transformer 模型的方法:TransReID 和 AAFormer。
第三,在数据集 CUHK03 上,RA Loss 的性能依然与最先进的基于组件特征的方法的性能相当。值得注意的是,RA Loss 取得了所有基于组件特征的方法里最为高的 Rank-1 准确度。综上所述,上述三个数据集上的性能对比充分地说明了我们提出的 RA Loss 的性能优越性。
表 1 行人重识别模型的性能比较
注:“-”表示无数据,RR 表示使用 Re-Ranking[11]。
2. 定性分析——可视化结果
此外,我们还从定性的角度来验证了本文提出的 RA Loss 的有效性。
第一,我们在图三中比较了三个模型所提取到的正样本对和负样本对分布图。由图三可以得出以下三个结论。(1)baseline 模型所提取的正样本对和负样本对的分布存在着明显的重叠,此外,两种样本对的分布都较为松散。(2)宏观约束能够明显地拉开正样本对和负样本对之间的距离(重叠的区域面积明显减小)。(3)微观约束能够明显地使得两类样本对内部更为紧致。上述实验充分地说明了本文提出的宏观约束和微观约束的有效性。
图三 正样本对(绿色)和负样本对(红色)的分布比较。(a)为 Baseline 模型的样本对分布图;(b)为添加了宏观约束的分布图;(c)为继续添加微观约束的样本对分布
第二,我们在图四种比较了 Baseline 模型和 RA Loss 所提取的行人图像的分布。由图四可以看出,RA Loss 能够有效地增强类别内部的紧致性,这也有效地说明了本文提出的 RA Loss 的有效性。
图四(a)Baseline 模型所提取的行人图像特征分布,(b)RA Loss 所提取行人图像的特征分布。
结论
针对度量学习损失函数固有的对间不一致问题,本文提出了一个简单但有效的损失函数——关系感知损失函数。关系感知损失函数从宏观和微观两个角度设计了一组互补的约束,共同优化样本对特征,从而解决对间不一致问题。首先,宏观约束作用于正样本对的均值和负样本对的均值,提高正样本对和负样本对之间的类间分离性;其次,微观约束作用于单个的样本对,提高两类样本对的类内紧致性,从而解决对间不一致问题。最后,我们在三个公开的数据集上进行了充分的实验验证,定性和定量的结果均验证了本文提出的关系感知损失函数的有效性和优越性。
论文以行人重识别任务为例,但在实际应用中,该项技术在行人重识别、跌倒检测、手势识别中都有巨大的应用潜力,目前优必选科技已将该技术有效地应用于智慧商业、智慧康养和人工智能教育等领域,其成效也获得了用户的普遍认可。在使用三元组比例损失训练模型的过程中,由于跌倒数据几无清晰可用的公开数据集,优必选科技计算机视觉团队为求获得真实可信的图像分析效果,历经数月的算法研讨和效果测试,动员近百名成员及同事,在不同区域进行正摔、侧摔,从各个角度进行“托马斯全摔”,最终验证了损失函数的训练效果。
该项技术的提出,使得算法团队能够在受限的算力下使用更小的模型实现同等的准确率效果,有效地节约了宝贵的算力,助力全行业共同破解安迪-比尔定律困局。
在劳动力紧缺、老龄化加剧的大背景下,机器人尤其是人形机器人的发展主要受限于成本高昂,优必选科技将继续着眼于人工智能和机器人产业的实际需要,在成本优先的算力环境中提供更多高性能的算法解决方案,为“让智能机器人走进千家万户,让人类的生活方式变得更加便捷化、智能化、人性化”的使命贡献 AI 科技力量。
版权声明: 本文为 InfoQ 作者【优必选科技】的原创文章。
原文链接:【http://xie.infoq.cn/article/d6da82a50ce1993f8eb61751c】。文章转载请联系作者。
评论