MOTS:PointTrack翻译 理解。《Segment as Points for Efficient Online Multi-Object Tracking and Segmentation》
多目标跟踪是计算机视觉领域的一项基础性工作,在自动驾驶和视频监控等领域有着广泛的应用。最近MOT方法[4,6,42]主要采用基于检测的跟踪范式,通过数据关联算法将检测到的边界框跨帧链接起来。由于关联的性能在很大程度上依赖于鲁棒相似度度量,而鲁棒相似度度量由于目标之间频繁的遮挡而难以得到广泛的关注。MOT领域挑战仍然存在,尤其是拥挤的场景。最近,多目标跟踪和分割(MOTS)任务[35]在MOT任务进行衍生,同时考虑实例分割和跟踪。由于实例mask精确地描绘了可见对象的边界和自然地分离邻接物,MOTS不仅提供了像素级分析,更重要的是鼓励学习更多有区别的实例特征,从而比基于边界盒(bbox)的方法更便于鲁棒的相似度度量。
不幸的是,当前的MOTS方法很少处理如何从分割(segments)中提取实例特征embeddings。Track R-CNN[35]用3D卷积扩展了Mask RCNN并在bbox推荐中采用ROI Align来提取实例embeddings。为了在特征提取中关注分割区域,Porzi等[28]提出mask pooling替代ROI align。然而,受卷积感受野(洪白话:摘要中提到的,CNN网络卷积感受野固定且参数共享)的影响,前景特征和背景特征仍然混杂在一起,不利于识别特征的学习。因此,目前的MOTS方法虽然采用先进的分割网络来提取图像特征,但没有学习到具有区别性的实例embeddings,而具有区别性的实例embeddings是鲁棒实例关联的关键,导致跟踪性能有限。
本文提出了一种简单高效的基于分割mask的实例embeddings学习方法。基于PointNet[29]的成功,其可以从不规则格式的三维点云中直接聚合特征,我们将二维图像像素视为无序的二维点云,以点云处理的方式学习实例embeddings。具体地说,对于每个实例,我们分别为前景分割部分和周围区域建立两个单独的点云。在每个点云中,我们进一步提出结合不同形式的点向特征来实现统一的、环境感知的实例embeddings。通过这种方法,将我们提出的实例embeddings和任何实例分割方法(洪白话:pointtrack使用的是spatialembeddings分割模型)相结合,可以很容易地建立这种新颖的逐点跟踪范式。在相同分割结果的基础上,通过与当前MOTS方法的比较,验证了我们提出的实例embeddings方法的有效性。如图1右子图所示,我们的方法有效地减少了id switches。跨不同数据集的评估(参见表3,5中的PointTrack*)也证明了我们提出的实例embeddings具有很强的泛化能力。此外,为了提高MOTS的实用性,我们改进了目前最先进的单阶段实例分割方法——空间嵌入[24]实现时间一致性,并建立了新的MOTS框架PointTrack。我们提出的框架首先实现了接近实时的性能,同时在KITTI MOTS上以很大的优势优于所有最先进的方法,包括3D跟踪方法(见图1左侧的子图)。
此外,为了便于更好的评估,我们构建了一个更拥挤、更具挑战性的MOTS数据集,名为APOLLO MOTS(洪白话:阿波罗?哈哈),基于公共的ApolloScape数据集[13]。APOLLO MOTS具有和KITTI MOTS类似的帧数,但是两倍多的追踪和汽车注释(见表1)。我们相信APOLLO MOTS可以进一步促进MOTS的研究。
我们总结了我们的主要贡献如下:
-我们提出了一种高效的方法,通过将紧凑的图像表示分解成无序的二维点云来学习分割上的具有判别性的实例Embeddings。-引入了一个新的在线MOTS框架PointTrack,它比最先进的方法更有效。-我们创建了APOLLO MOTS,一个更具挑战性的数据集,比KITTI移动的实例密度高68%。-跨三个数据集的评估显示,PointTrack在很大程度上优于所有现有的MOTS方法。另外,PointTrack可以显著减少id switches。
2.相关工作
基于检测的追踪。基于检测的MOT方法首先检测感兴趣的目标,然后通过数据关联将目标连接成轨迹。数据关联可以在二维图像平面[4,6,7,14,33,42,38]或三维世界空间[1,8,10,20,25,39]上完成。ATOM[7]引入了一种新的跟踪架构,该架构通过预测目标对象与估计的包围盒的重叠,由专用的目标估计和分类组件组成。FAMNet[6]开发了一种端到端跟踪架构,其中特征提取、关联估计和多维分配是共同优化的。大多数3D跟踪方法[25,32]基于3D运动线索合并轨迹。其他方法[10,23,18]进一步对物体进行三维重建,提高跟踪性能。
基于分割的追踪。与在拥挤的场景中可能会严重重叠的2D边界盒不同,每个像素的分割可以精确地定位物体。最近,实例分割被用来提高跟踪性能[19,27,26,12,28]。在[26]中,Osep等人提出了一种model free的多目标跟踪方法,该方法使用分类不确定的图像分割方法来跟踪目标。TrackRCNN通过3D卷积拓展Mask R-CNN来融入时间信息并使用ROI Align提取实例embeddings,从而进行跟踪。MOTSNet[28]为Mask-RCNN提出了一个Mask Pooling,以改善随着时间的推移的对象关联。STE[12]引入了一种新的时空embeddings损失来生成时间一致的实例分割,并将所有像素在分割上的平均embeddings作为实例嵌入来进行数据关联。由于二维或三维卷积获得的特征不利于具有区分性的实例embeddings学习,因此与之前的方法不同,我们的PointTrack将二维图像像素作为无序的二维点云,以点云处理的方式学习实例embeddings。
MOTS数据集。KITTI MOTS[35]使用密集的实例分割注释扩展了流行的KITTI MOT数据集。除了KITTI MOTS,流行的数据集(如ApolloScape数据集[13])也提供了视频实例分割标签,但实例在时间上不连续。与KITTI MOTS相比,ApolloScape提供了更拥挤的场景,更难以追踪。基于这一观察结果,我们使用与KITTI MOTS相同的度量以半自动注释方式构建了Apollo MOTS。