论文地址:https://arxiv.org/abs/1904.01772

论文matlab代码地址:https://github.com/XinLi-zn/TADT

论文python代码地址:https://github.com/ZikunZhou/TADT-python

  • 动机:
    1. 视觉跟踪中的目标可以是任意形式的,从通用图像中预先训练的CNN模型不知道感兴趣的目标对象,并且在将其与背景分离时效果较差。
    2. 即使目标对象出现在预训练模型的训练集中,从最后的卷积层获取的深层特征往往只保留高级视觉信息,对精确定位或尺度估计的有效性较低。
    3. 最先进的深度跟踪器需要很高的计算负载,因为来自预先训练模型的深度特征是高维的。
  • 主要贡献:
    1. 建议学习目标感知的深度特征用于视觉跟踪。为了选择最有效的卷积滤波器来生成目标感知特征,开发了一个回归损失和一个排序损失。缩小了视觉跟踪中预先训练的深度模型与任意形式的目标对象之间的差距。
    2. 将目标感知特征与孪生网络相结合,用于视觉跟踪。减少了特征数量的目标感知特征可以加速孪生跟踪器。
    3. 在5个基准数据集上评价了所提出的方法。实验表明,与最先进的方法相比,具有目标感知特征的孪生跟踪器在有效性和效率方面表现良好。
  • 主要内容:

图中,a组数据表明目标感知特征对于类内差异更为敏感,有益于区分目标和干扰物,处理背景杂乱问题。b组数据表明目标感知特征可以更有效地划分不同类别的对象,这样不相关的滤波器就可以删除,保留更高效的特征提取滤波器,减轻计算机计算负载。

TADT算法网络架构:

  • 一个通用的CNN特征骨干网
  • 一个目标感知模型
  • 一个相关匹配模块

选择目标感知特征的优点:

    1. 选择部分目标特定的滤波器来生成判别深度特征。这不仅缓解了模型的过拟合问题,而且减少了特征的数量。
    2. 目标感知特征可以有效地表示训练集中的任意目标或看不见的对象。

图4(b)Conv4-1层中,通过对所有通道平均,直观地比较了使用建议模型和不使用建议模型生成的深度特征。

图4(c)Conv4-3层中,通过平均所有通道,直观地比较了使用回归损失和不使用回归损失学习到的深度特征。

为了保持更细粒度的空间细节,使用Conv4-1和Conv4-3层的激活输出作为基础深层特征。

追踪器的总体框架是由目标感知特征模型和孪生网络框架集成的。使用孪生网络做框架的原因如下:①Siamese框架是简洁和高效的,因为它通过比较目标和搜索区域的特征来进行跟踪。②Siamese框架能够突出所提特征模型的有效性,因为它的性能完全取决于特征的有效性。

公式:

  • 实验结果:

在一台32G内存、i7 3.6GHz CPU和GTX-1080 GPU的PC上,在Matlab中实现平均跟踪速度为33.7帧/秒。从Conv4-3层中选取最重要的250个过滤器来学习target-active特征,从Conv4-1层中选取最重要的80个过滤器来scale-sensitive特征。并在OTB-2013、OTB-2015、VOT-2015、VOT-2016和Temple color-128这5个基准数据集上对所提算法进行了评价。结果图如下:

  • 总结:

提出了目标感知特征模型,包括一个判别特征生成模型和一个基于回归梯度和等级损失的尺度敏感特征生成组件。目标感知特征可以更好地识别发生显著变化的目标。将目标感知特征模型与Siamese跟踪框架相结合,证明了其对视觉跟踪的有效性和效率。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐