机器学习算法评估指标——2D 目标跟踪
在2D目标跟踪任务中,我们需要从精度、鲁棒性、运行速度等方面对算法进行综合评估。首先介绍单目标跟踪(SOT)算法的常用评估指标;其次介绍多目标跟踪(MOT)算法的常用评估指标。
单目标跟踪
APE(Average Pixel Error)
定义:平均像素误差,一般指中心距离,即预测框与真实框中心位置的像素距离取帧平均
用途:用来判断两个矩形框的靠近程度。该值越大,说明误差越大
AOR(Average Overlap Rate)
定义:平均重叠率,即两个矩形框交集的面积与并集的面积之比取帧平均
范围:0~100%
用途:判断两个矩形框的重叠程度,值越高则重叠程度越高,即两个框越靠近,跟踪精度越高
Overlap Rate和 IoU 定义是完全相同的,只不过在检测任务中常写作IoU,在跟踪任务中常写作 Overlap Rate
Pixel Error threshold
定义:需要人为设定的像素误差的阈值,Pixel Error低于该阈值的矩形框被认为是命中目标,反之则被认为未命中
用途:作为区分矩形框是否命中目标的指标,阈值越小则要求矩形框与真值像素误差越小
Overlap Rate threshold
定义:需要人为设定的重叠率的阈值,重叠率高于该阈值的矩形框被认为是命中目标,反之则被认为未命中
范围:0~100%
用途:作为区分矩形框是否命中目标的指标,阈值越高则要求矩形框与真值重叠程度越高
Success plot
定义:序列中跟踪成功的帧数占总帧数的比例定义为跟踪成功率,选取不同的阈值,则可以得到各阈值下的成功率,连接各点形成success曲线
用途:根据曲线下的面积来衡量tracker的跟踪精确度
TRE(Temporal Robustness Evaluation)
定义:时间鲁棒性评估。从整个序列中截取若干段(可以重复),每段的初始帧利用ground truth进行初始化,在每一段上分别运行跟踪算法,对每一段分别进行评估,最后对总体信息进行统计。
SRE(Spatial Robustness Evaluation)
定义:空间鲁棒性评估。对起始帧的ground truth进行shift或scale操作形成若干段测试序列,在每一段上分别运行跟踪算法,对每一段分别进行评估,最后对总体信息进行统计。
EAO(Expect Average Overlaprate)图
定义:以AOR作为精度的衡量标准,以跟踪算法跟丢目标的次数作为鲁棒性的衡量标准。假设一个视频序列总帧数为N,跟丢帧数为SF。以 exp(-SF/N) 为横坐标,以AOR为纵坐标,绘制出EAO图。
范围:0~100%(横坐标),0~100%(纵坐标)
用途:在一张图中同时反映精度和鲁棒性。越靠近坐标轴右上角,即AOR趋于1,SF趋于0,说明该算法精度和鲁棒性越好
EFO(Equivalent Filter Operations)
定义:首先测试该机器在600×600图像上,对每个像素进行30×30滤波的时间。然后将跟踪算法耗时除以该机器上进行以上滤波操作的时间,这样得到的值就是EFO值。
用途:是用来衡量跟踪速度的指标,通过EFO指标可以减少硬件差异带来的影响
多目标跟踪
对于多目标跟踪问题,一个理想的评价指标应该满足下述三点要求:
所有出现的目标都要能够及时找到
找到目标位置要尽可能可真实目标位置一致
保持追踪一致性,避免跟踪目标的跳变
为了满足上述要求,论文提出了一种系统、客观的评价过程。假设每一帧图像中有目标O={o1,o2,...,on},tracker在该帧输出的假设为H={h1,h2,...,hm},那么评价过程包含以下步骤:
建立目标和假设间的最优一一对应关系
对所有的目标-假设对应,计算位置偏移误差
计算累积误差:误检、漏检、跟踪目标发生跳变等
具体过程对t帧,考虑Mt-1映射中的每一个对应(oi, hj),验证其是否依然有效;
对于那些上一步没有找到对应假设的目标,在新的假设集中寻找最佳匹配,即让总的目标-假设距离最小。在这个过程中可以统计匹配发生跳变的次数mmet,作为t帧的mismatch errors;
至此可以找到所有的目标-假设对应,所有的对应个数记为c-t,计算每一个对应的距离;
剩下的未找到对应的目标和假设个数分别记为mt和fpt,并用gt表示t帧真正目标的个数;
从第一帧开始逐帧计算上述变量,第一帧没有mme。
由此可以定义以下评估指标。
MOTP(Multiple Object Tracking Precision)
定义:算法输出与目标真值的平均偏差
用途:用来评估跟踪器的定位精度
MOTA(Multiple Object Tracking Accuracy)
定义:
用途:综合漏检率、误检率以及 ID 跳变率来评估跟踪准确度
MT(Mostly Tracked)
定义:满足目标真值至少在80%的时间内都匹配成功的track,在所有追踪目标中所占的比例。
ML (Mostly Lost)
定义:满足目标真值在小于20%的时间内匹配成功的track,在所有追踪目标中所占的比例。
FM(Fragmentation)
定义:每当轨迹将其状态从跟踪状态改变为未跟踪状态,并且在稍后的时间点跟踪相同的轨迹时,就会对FM进行计数。
用途:用来评估跟踪完整性
版权声明: 本文为 InfoQ 作者【做技术BP的文案Gou】的原创文章。
原文链接:【http://xie.infoq.cn/article/aacc83421221f64323359e72b】。文章转载请联系作者。
评论