基于异步相关判别性学习的孪生网络目标跟踪算法

许龙魏颖商圣行张皓云边杰徐楚翘

视觉目标跟踪算法广泛应用于水下机器人,无人机协同,机器人设计等诸多领域[1-3],得到一个跟踪精度高,速度快的跟踪器面临着各种各样的挑战.近些年来,大量的研究成果涌现出来,极大地推进了该领域的发展,其中又以基于孪生网络的跟踪算法性能最好[4-8].

目标跟踪的核心问题是目标与背景的分类问题,在第1 帧中给定任意要跟踪的目标,目标跟踪算法都能在接下来的帧中给出该目标的准确位置.近年来,以基于粒子滤波加分类为代表的多域卷积神经网络(Multi-domain convolutional neural network,MDNet)[9]和基于相关滤波为代表的核化相关滤波(Kernel correlation filter,KCF)[10]等判别类跟踪方法受到了研究人员的广泛重视,以这两类跟踪框架为基础,又衍生出了大量的跟踪算法[11-15].Wang 等[13]首先将编码器特征引入到目标跟踪的任务中,取得了不错的跟踪性能,但是由于该方法得到的特征比较简单,该模型很难应付目标发生较大变化时的情景.为解决这个问题,Ma 等[12]充分利用卷积神经网络不同层之间的卷积特征进行跟踪,利用更高效的图像特征提高了跟踪的性能.进一步地,Nam 等[9]提出了一种多域学习的算法 MDNet,并引入了一个更大的卷积神经网络用于提取目标特征,在当时的基准上取得了最好的性能.但是,由于MDNet 基于粒子滤波算法,速度较慢,因此越来越多的研究转移到了相关滤波的框架下.Bolme 等[16]首先将相关滤波器引入到了目标跟踪的任务中,将目标跟踪由分类任务变成了相似度计算的任务,通过求解最小二乘问题得出可能是目标位置的最高响应.为了解决 Bolme 等[16]的算法在跟踪过程中训练样本过少的问题,Henriques等[10]将循环矩阵的思想引入到训练样本的生成过程中,同时充分利用了循环矩阵的特点,从而能以很快的速度优化一个非闭合的二次优化问题.出于计算速度的考虑,相关滤波的相关性计算都在频域中进行[16],在实际的应用中会遇到截断误差 (边界效应) 的问题,为了解决这一问题,Danelljan 等[11]在求解滤波器的过程中引入了一个空间正则化项,并使用Gauss-Sediel[11]求解滤波器,同时将原始的图像特征[8,14] 替换为对应图像的深度特征,进行相关滤波器的计算,进一步提高了跟踪的性能.为了解决滤波器在离散空间计算导致的跟踪精度损失问题,Danelljan 等[14]使用插值的方法,将滤波器的计算转移到了连续域空间,并取得了很好的跟踪效果,但是由于需要计算的滤波器数量比较多,这导致算法速度较慢.为了解决这一问题,Danelljan 等[14]提出了一种降维的方法,求解出对响应贡献最大的几组滤波器进行跟踪,同时利用高斯混合模型进行样本空间的管理,实现了速度与精度的提升.

随着相关滤波算法的发展和完善,同为相似度计算的孪生网络模型进入了人们的视野.Held 等[4]将孪生网络的结构引入到了目标跟踪的相似度计算中.Bertinetto 等[5]进一步设计了训练数据集的结构,以此为基础衍生出了大量的基于孪生网络的跟踪算法.Li 等[6]将检测中的RPN (Region proposal network)[17]结构引入到了跟踪中,利用边框回归以及锚点的方法,缓解了边界框结果精度低的问题.为进一步解决边界框定位精度的问题,Danelljan 等[18]将目标检测算法中的IOUNet (Intersection over union-network)[19]边框回归组件引入到了跟踪中,提出了一个非孪生网络结构的跟踪器,相比于RPN 结构,IOUNet 有着更高的边界框回归的精度,这帮助该算法获得了更高的跟踪性能,同时由于该算法可以在线更新,因此其具有更高的判别性能.Zhu 等[7]和Li 等[8]提出了更深网络结构的Siam-RPN++[8]、DaSiamRPN[7]和将分割引入到孪生网络跟踪器的SiamMask[20],进一步提高了跟踪器的精度.但是这些基于孪生网络的跟踪算法只通过离线训练获得一组网络参数,其相似度的计算很大程度上依赖于目标的语义信息,这导致其在在线跟踪时很难处理具有相同语义干扰物的识别问题.

为解决基于孪生网络的跟踪器对于相似目标判别能力弱的问题,本文提出了一种异步相关的理论模型,并基于此提出了一种新的具有判别性的跟踪方法.在进行在线更新的过程中,本文使用了二阶优化的方法对所提出的模型进行更新,相比于传统的一阶优化,本文使用的方法可以在更少的迭代次数下实现更快的收敛.为了验证本文提出算法的有效性,本文在 Got-10k[21]、TC128[22]、OTB[23]和VOT2018[24]上分别进行了对比实验,实验结果表明本文所提出的方法可以有效地提升在线跟踪器的判别能力以及鲁棒性,同时还能保证较高的跟踪速度.

在目标跟踪中,跟踪任意目标的任务可以看作是相似性学习的问题.基于孪生网络的跟踪器利用孪生网络可以学习相似性的特点实现跟踪.假设要学习的相似性函数由孪生网络f(x,z|θ) 表示,其中x表示搜索区域,z表示样本图像,θ表示该网络的参数.经过f(x,z) 的计算,得到一个目标样本z在搜索区域x中不同位置的打分,当前位置得分越高,说明当前的目标越有可能处于这个位置.在实际应用中,x和z并不直接参与相似性的计算,而是先经过一个特征提取器φ得到相应的特征φ(x) 和φ(z),然后将这些特征送入相似度计算函数g来进行打分,得到相应的相似性度量函数如式 (1) 所示:

式中,φ是一个基于卷积的特征提取器.Li 等[6]通过提升φ的结构,并引入检测中的边框回归提升了性能.Zhu 等[7]和Li 等[8]通过将φ做的更深更大,进一步提升了跟踪器的性能.相似性函数g是一个简单的距离或者相似性度量函数,在基于孪生网络的跟踪器中,g的形式与高效卷积算子(Efficient convolution operators,ECO)[22]相似,都是使用相关滤波的操作进行相似度计算.

式(1) 得到的孪生网络f通过在通用数据集上构造特定形式的数据集进行离线训练,在训练的过程中,利用判别的方法对f进行训练.设定正样本的概率为 1/(1+e-v),负样本的概率为1-1/(1+e-v),将其代入交叉熵的计算公式,得到相应的损失函数定义为:

式中,y∈[-1, 1],表示是否是目标,v表示相似性计算后的实际得分.在训练过程中,利用所有候选位置的平均损失来表示最终的训练损失函数:

式中,D表示最后得到的相关性计算得分图,u表示D中的所有位置.通过随机梯度下降的方法最小化式(4)所示的损失函数,从而得到网络的参数θ:

式中,训练样本对 (z,x) 从精心标注好的视频数据集采样,搜索区域x以目标区域z为中心,保持目标宽高比例不变,裁剪固定大小的区域,超出区域的部分用图像像素平均值填充.所有操作都是在离线状态下进行,即此时跟踪器不进行跟踪,只进行训练.

为了给目标跟踪器引入判别性,本文以SiamRPN[6]为基准算法做了大量的实验工作,发现了孪生网络跟踪器的一些异步相关特性可以对相同语义特征的目标进行有效的抑制,同时可以缓解跟踪过程中目标发生形变的问题.

2.1 置信度时间衰减假设

在传统跟踪器工作的过程中,在第1 帧时,跟踪器利用第1 帧目标的样本z0计算得到当前要跟踪目标的滤波器k0,然后在接下来的第t帧,利用xt与k0,通过互相关计算,得到目标的响应图D,相应的计算过程如式(5)所示:

在整个跟踪的过程中,k0保持不变,这意味着如果目标的状态发生了很大的变化(包括形状、大小和颜色等),跟踪器的识别能力就会降低.

假设被跟踪目标随着时间t的变化而变化,当前滤波器k0与时刻t下的xmt计算得到的得分会发生衰减,设这个衰减因子为η,时刻t后,得分强度会变为vt(u)=η·v0(u),u ∈D.同时,由于在第1节中提到的孪生网络f(z,x|θ) 并不是为当前跟踪的类别特定训练的,而是对尽可能多类的目标进行训练,从而实现一定的通用性.因此假设搜索区域中存在同类目标zfake(例如人类、汽车、同类的动物和物体等).经过卷积以后,在t=0 时刻,跟踪目标与同类目标得分应满足:

然而,因为有衰减因子η的存在,会在某一时刻t有vt(u)≤vt(ufake),此时,跟踪器会错误地判断目标的位置,将ufake当做是真正的目标,从而导致跟踪失败.图1 为分别采用初始的k0与当前的kt所得到的目标响应得分图.

图1 不同滤波器下响应结果对比Fig.1 Comparison of response results under different filters

图1(b)和图1(c)分别表示滤波器k0与滤波器kt=φ(zt)计算得到的响应得分图.由图1 可以看出,本文提出的置信度时间衰减假设是合理的,因此可以利用kt所具备的目标判别能力对基准算法SiamRPN 进行改进.

2.2 判别性模型的建立

基于以上假设,本文提出了一种异步相关的打分策略,从而为跟踪器引入了对于真实目标与虚假同类目标的可判别性.

由于目标的形变会导致k0以η的衰减速率计算真实的目标得分,为此本文直接将t时刻的样本图像zt引入到跟踪的过程中,得到在线打分公式如下:

式(7)虽然引入了当前时刻t下的样本图像zt,在一定程度上消除了目标形变带来的打分衰减效应,但是由于跟踪器在跟踪过程中存在着一定的噪声以及跟踪结果上的偏差(例如跟踪位置的错误,跟踪得到的目标尺寸的错误),如果直接采用式(7)的打分方式,这些误差会随着时间t逐渐累积,kt会被污染,从而导致跟踪器无法找到目标.

为解决上述问题,本文将第1 帧计算得到的k0作为监督信息,引入一个可在线学习的判别性模型Φ,得到新的打分公式:

式中,θ是离线训练好的一组参数,在跟踪的过程中不发生变化,w是需要在线更新的参数.令kt=φ(zt),代入式 (8) 有:

式中,φ(·) 表示离线训练好的特征提取器,a表示激活函数,w表示在线判别模型 Φ 的权重,*表示卷积操作.为得到一个较为合理的映射,令a(w*kt),构建用于在线更新的相似度计算损失函数如式 (10) 所示:

式中,‖·‖表示L2范数,对神经网络权重w进行正则化,λ是正则化系数,n表示样本的个数,γj=表示第j个样本的权重,0＜α ＜1表示样本权重的衰减参数.

由式(10)可知,在实际跟踪的过程中,本文算法不仅利用了t时刻的样本图像xt,同时还能保证由xt得到的滤波器kt不会偏离真实的滤波器k0太远.由于滤波器 Φ (φ(zt)) 与k0存在较小的差距,同时 Φ (φ(zt)) 还包含了时刻t目标的信息,因此这样的滤波器在面对相同类别的目标时,具有更高的判别性.

2.3 异步相关响应计算

除了利用当前时刻t的kt计算目标的响应外,同时还可以充分利用时刻t之前特定的m个判别性网络 Φ{1,···,m} ∈S来计算最终的得分响应:

式中,st表示当前时刻t的得分响应图. Φi表示不同时刻得到的判别性模型.

在实际的应用中,假设相邻帧之间的判别性模型更为相似,而距离较远的帧之间的判别性模型差异更大.这样的假设与实际情况相符合,因为随着时间t的增加,不同帧下相同目标之间的差异会变得更大.根据这个假设,本文提出了一种利用不同的 Φi网络参数wi之间的Kullback-Leible (KL)散度对 Φi管理的策略,计算不同网络参数分布之间的KL 散度矩阵DKL,如下式所示:

式中,P(wi)、Q(wj)∈R1×N表示wi、wj相应的概率分布(直方图分布),(i,j) 表示DKL中第i行,第j列的元素.

对于每一帧得到的新的 Φt,计算其与m个现有网络的KL 散度向量dt,找到最小 KL 散度距离所对应的 Φk,k ∈{1, 2,···,m}和距离dt(i).利用如式(13)所示的策略u,对m个判别性模块进行更新.

由式(13)可知,本文利用判别模型参数间KL散度的不同,保留差异最大的m个判别器作为异步相关响应打分的依据,这样的做法可以最大程度上保留目标在不同形态时的语义信息,在遇到具有相似语义目标的时候,不同帧中目标的历史信息会帮助跟踪器做出很好的判断,从而增强了跟踪器的判别能力.

2.4 近似二阶优化算法下的在线更新策略设计

传统的一阶优化算法(如随机梯度下降、自适应矩估计等)[25]在优化过程中比二阶的优化方法有更快的速度,因为二阶优化算法涉及到二阶信息的计算,这些信息有助于找到一个网络泛化能力最强的解,但是高昂的计算代价让其在对海量的数据进行训练时处于劣势.

在本文提出的在线更新策略中,因为要学习的参数和样本少,因此近似二阶的优化算法更适用于本任务,可以同时兼顾速度与精度.

在进行二阶优化的过程中,Hessian 矩阵的计算是影响速度的关键因素.本文简化计算形式,根据式(10)定义残差为:将rj(w)和rn+1拼接起来,构成r(w).此时,式(10) 可等价为:

对式(14)进行二阶泰勒展开,有:

式中,∇T表示∂Lup/∂w,利用PyTorch 的自动求导机制求解.Hw表示 Hessian 矩阵,O(||Δw||2) 是一个极小量,可忽略不计.优化的目的是寻找一个合适的 Δw,使最小.

具体优化流程步骤如下:

步骤1.初始化网络权重w、残差r(w)、NCG和N.

步骤2.fori=1,···,Ndo.

步骤3.计算w下∇Lup(w),Hwv=Rv{∇w(w)},代入式 (15),Δw ←0.

步骤4.forj=1,···,NCG,Δw=Δw0,di=d0=-∇Lup(w) do.

步骤5.计算步长.计算α来最小化式(15):

步骤6.更新权重. Δw=Δw+αdj.

步骤7.更新方向.Letdj+1=-∇T+βjdj,其中:

步骤8.end for.

步骤9.w=w+Δw.

步骤10.end for.

不同于基于最大化交并比的精确跟踪算法(Accurate tracking by overlap maximization,ATOM)[18]利用雅可比矩阵近似计算Hessian 矩阵的方式,为避免求解Hw的逆矩阵,本文利用Pearlmutter 等[26]提出的R{·}直接求解Hwv,进一步提高了优化过程中的精度与速度.令 Δw=rv,形式为:

3.1 实验设置

本文使用基于Python 的PyTorch 作为实验平台,CPU 为I5 8400,内存为24 GB,GPU 为2060 Super.分别在 Got-10k[21]的180 个视频序列,TC-128[22]的128 个视频序列,OTB 的100 个视频序列,以及VOT2018[24]的60 个视频序列上进行实验.利用m个判别模块 Φ 进行异步相关性计算,其中每个判别模块有256 个卷积核,每个卷积核的大小为1×1. 在优化的过程中,N=5,α=0.3,共轭梯度下降迭代次数NCG=100,实际计算过程中,由于网络很快就收敛,因此共轭梯度优化部分只迭代很少的次数.本文算法在4 个评测数据集上采用同一套参数进行测试.

在对比实验部分,对比了本文算法与最新的基于孪生网络的目标跟踪算法,包括SiamFC[5]、SiamRPN++[8]和DaSiamRPN[7]等;并且对比了其他的跟踪算法,包括基于相关滤波算法的ECO[15]和判别性跟踪器ATOM[18]等,由于不同跟踪器源码,评估数据集及其结果公开情况的不同,因此在第3.2～ 3.4 节的对比分析中,参与对比的跟踪器会略有不同.

3.2 与基准算法的对比分析

为验证本文算法的有效性,本文在Got-10k 和TC128 上进行了自身对比实验,包括消融实验和量化分析.同时与一些最先进或者经典的跟踪器进行对比.表1 为基准算法与本文算法在Got-10k 上的性能对比情况.

表1 本文方法与基准算法的消融实验Table 1 Ablation studies between the proposed algorithm and baseline

表1 中,Baseline 表示基准模式,AC (Asynchronous correlation)表示本文提出的异步相关模块,DKL表示判别性模块管理算法,该算法利用KL 散度对m个异步相关判别模型进行管理.FPS表示算法每秒可处理的帧数,值越大表示性能越好.S 表示本文使用的二阶优化算法.AO 表示所有帧上跟踪的结果和真实标签之间重叠率的平均值,值越大表示性能越好.SR 表示跟踪的成功率,值越大表示性能越好,S R0.75下标表示成功率高于0.75%.由表1 可以看出,本文算法比基准算法在AO、SR0.5和 S R0.75三个指标下分别提升1.2%、1.4%和0 .7%.因此使用本文提出的异步相关判别模型 Φ 可明显改善基准算法在Got-10k 上的性能.

本文同时对比了m=3, 6, 9 时算法的性能表现.可以看出,当m=6 时,算法性能最好;在只使用AC 的情况下,S R0.75比基准算法高出0.3%;当引入二阶优化算法S 后,平均重叠率AO 和SR0.5分别提升0.2% 和0.3%;而当m=3, 9 时,跟踪器的性能出现下降.在模型的优化方面,将一阶的 Adam优化算法替换为本文所使用的二阶优化方法S 后,AO提升了0.2%,可以看出,本文使用的二阶优化方法可以有效地提高跟踪的精度,同时对于跟踪速度的影响较小.

图2 为本文方法在m=6 时与其他先进的跟踪器在Got-10k 上的对比情况.

由图2 可以看出,在平均成功率的性能表现上,本文方法分别比基准算法 SiamRPN 的改进算法SiamRPN++和SiamMask 高出0.4%和0.5%.而SiamRPN++和SiamMask 分别比基准算法提升了0.8% 和 0.7%,相比之下,本文方法相对于基准算法提升了1.2%,可见本文算法在Got-10k 的评价标准下对于基准算法的提升较大,同时本文算法在面对最新的一些跟踪器时,也具有较大的优势.分析原因发现,Got-10k 中存在着大量相似语义信息的跟踪情景,这正是本文提出异步相关判别模型所要解决的问题,通过利用帧间被跟踪样本信息的共享以及初始目标提供的监督信息,本文方法在一定程度上缓解了相似语义目标所导致的跟踪失败问题,相比于SiamRPN++和SiamMask,本文算法在应对这类情景时有着较为明显的优势.

图2 本文算法与其他先进跟踪器在Got-10k 上的对比情况Fig.2 Comparison between the proposed method with other advanced trackers on Got-10k

为评估跟踪器在实际跟踪中的性能表现,本文在Got-10k 测试集的8 个具有代表性序列上进行了改进前后跟踪结果的对比分析,对比结果如图3 所示.图3 中虚线框表示本文算法的跟踪结果,实线框表示基准算法的跟踪结果.

由图3 可以看出,在第1 个目标发生遮挡的情景下,本文方法通过不同帧间的信息共享,准确地在遮挡发生时跟踪到了目标;在第2 个水下相似背景跟踪过程中,本文算法通过利用最新的当前样本来生成核,从而及时地响应了目标的形状变化,跟踪到了目标;在第3 个有相似语义目标的情景下,本文算法同样利用及时更新的样本核准确地跟踪到了目标;在第4 个目标发生尺度变化的跟踪情景中,通过异步信息的计算以及当前样本核的帮助,本文算法准确地跟踪到了目标;在第5 到第8 的4 个序列中,本文算法在处理相应的复杂环境进行跟踪时同样表现出了较基准算法更强的性能优势.

图3 Got-10k 上跟踪结果对比实验Fig.3 Comparison of tracking results on Got-10k

Liang 等[22]指出,利用不同的颜色模型对提升跟踪器性能具有很大帮助,不同于OTB20-15 中包含一些灰度图像的情景,TC128 中的128 个序列均为彩色序列,其中70 个序列为新增的,Liang 等[22]认为这些彩色图像在理论上会更能充分评估跟踪器的性能.为此本文在TC128 上对跟踪器的精度和成功率进行自身对比实验,实验中默认使用二阶优化算法S 来优化AC 模型,并选择了跟踪器高效卷积算子、空间正则化的相关滤波算法(Spatially regularized correlation filters,SRDCF)、多专家跟踪(Multiple experts using entropy minimization,MEEM)[27]、Struck[28]、KCF、稀疏跟踪算法(ASLA)[29]、半监督跟踪算法(SemiT)[29]和整数直方图跟踪(Frag)[30]作为对比,得到精度和成功率图见图4.

由图4 可知,本文算法在m=3 时性能最好.与基准算法相比,在加入 AC 与后,本文方法的精度和成功率分别提升1.6%和1.0%.而SRDCF 的改进算法 ECO-HC 相较于 SRDCF 分别提高0.8% 和1.5%,因此本文方法相比于基准算法有较大提升.值得注意的是,在 Got-10k 上第8 名的ECO,在TC128 上是第1 名,类似现象也发生在VOT2018 的评估结果中.本文算法比采用多专家模型的 MEEM 在精度和成功率上分别提升9.5%和7.8%.本文算法比基于相关滤波的KCF算法在精度和成功率上分别提升了17.8%和15.2%.比其他的跟踪器(如Struck、ASLA 等)算法,本文算法具有较大的性能优势.同时由图4 可以看出,当m=6时,本文算法的性能较m=9 时在精度和成功率的性能上分别提升0.1%和0.1%,在精度与成功率上均要好于基准算法.

图4 本文算法在TC128 上的精度-成功率对比实验结果Fig.4 The accuracy-success rate comparison experiment results of the proposed algorithm on TC128

3.3 跟踪精度与成功率

本节进一步分析本文算法在OTB2015/2013上的性能表现,包括成功率图、精度图,以及在不同的跟踪情景下,不同跟踪器的性能对比情况.

首先,在OTB2015 上对比本文算法与最先进的跟踪器,包括DaSiamRPN、ATOM、DIMP[31]和CF2[12]等,以及具有代表性的算法,包括ECO、MDNet和 SiamFC[5]等,结果如图5 所示.

由图5 可以看出,本文方法比基准算法在平均精确度性能上提升1.7%,在平均成功率性能上比基准算法提升1.2%.当和时的精度性能表现几乎相同.当时,本文算法达到相较于基准算法的最好性能.同时可以看出,SiamRPN 的另一个改进算法 DaSiamRPN 较基准算法分别提

图5 本文算法在OTB2015 上的精度-成功率对比实验结果Fig.5 The accuracy-success rate comparison experiment results of the proposed algorithm on OTB2015

m=3m=6m=6升2.5%和2.0%,稍高于本文算法对于基准算法的提升.分析原因发现,在SiamRPN 的基础上,Da-SiamRPN 在离线训练阶段通过数据增强的技术来生成用于网络训练的数据样本对,替换了基准算法的训练数据来对SiamRPN 重新训练,通过扩充训练数据样本对的多样性,来增强原始SiamRPN 的泛化能力,使之在面对更复杂的跟踪情景或者快速变化的目标时有着更好的跟踪性能,同时DaSiam-RPN 也采用一种利用得分图进行干扰物感知的算法来提升性能.相比之下,本文算法只需要更新一个简单的AC 模型,且无需修改主干网络参数.

为对本文方法在不同跟踪情景下进行综合评估,选取了 OTB2013[23]的50 个序列中11 种跟踪情景对本文算法进行评估,同时为对比的公平,本文方法将与基准算法和一些最新的方法(包括ATOM、DaSiamRPN 和DIMP 等)做对比实验,实验结果如表2～表4 所示.

表2 OTB2013 上的背景干扰、形变等情景下的跟踪性能对比Table 2 Tracking performance comparisons among trackers on OTB2013 in terms of background clusters and deformation

表3 OTB2013 上的光照变化、低分辨率等情景下的跟踪性能对比Table 3 Tracking performance comparisons among trackers on OTB2013 in terms of illumination change and low resolution

表4 OTB2013 上的平面外旋转、视野外等情景下的跟踪性能对比Table 4 Tracking performance comparisons among trackers on OTB2013 in terms of out-of-plane rotation and out of view

表2～表4 中,下划线表示当前跟踪器在所有参与对比的跟踪器中是第1 名,加粗字体表示当前跟踪器在与基准算法对比过程中是第1 名.当m=3时,本文算法在形变、快速运动、平面内旋转、光照变化、低分辨率、运动模糊、遮挡、平面外旋转、视野外、尺度变化共10 种跟踪情景下的精度和成功率上,分别比基准算法提升(1.2%,2.5%)、(5.6%,7.3%)、(2.4%,3.8%)、(1.5%,2.6%)、(3.5%,4.4%)、(7.8%,9.8%)、(0.7%,1.4%)、(1.3%,2.4%)、(4.4%,5.3%)和(4.8%,6.8%).而在背景干扰的跟踪情景下,本文算法的性能与基准算法相近.从以上分析可以看出,本文算法较为全面地提升了基准算法性能.

分析算法性能提升原因可以发现,在性能提升较大的 10 种跟踪情景下,本文方法在面对这些挑战时,相比基准算法有更强的鲁棒性.这10 种情景大多对应的是目标在被跟踪的过程中其外观所发生的几类变化,而本文正是通过在线更新参与计算样本核的多个AC 模块,来部分地解决目标在跟踪过程中发生形变,导致语义信息发生较大偏差的问题.通过利用具有判别性的异步相关策略,本文方法可通过实时更新的方式,将这些扰动对性能的影响降到最低.

为进一步验证本文所提异步相关响应模型带给跟踪器的判别性,在OTB2015 中选择了具有代表性的6 个序列进行对比实验,实验结果如图6 所示.其中初始样本表示第1 帧目标计算得到的k0,当前样本表示当前帧目标计算得到的kt,优化后样本表示对当前kt优化的结果.

由图6 可以看出,对有相同语义信息的目标,当前样本计算得到的结果较初始样本结果有更准确响应,这是因为在加入异步相关响应计算后,由于不同帧间的目标信息被充分利用,使其对于具有相同语义信息的目标有明显抑制作用.同时可以看出,由于利用目标语义信息对其相应位置进行打分,因此目标外观在跟踪过程中发生多次变化后,如图1和图6 所示,采用当前样本计算得到的响应结果比在第1 帧计算结果有更强响应,同时在进行多帧AC 平均后,得到的响应更为集中,在应对相似语义背景以及目标形变上更具鲁棒性.

图6 OTB50 中6 个序列的响应对比结果Fig.6 The response comparisons of 6 different sequences on OTB50

3.4 跟踪器鲁棒性能对比分析

为进一步评估本文算法的性能与最先进算法在精确度和鲁棒性上的对比情况,在VOT2018 上对本文算法做了相应的对比实验,Li 等[8]指出Siam-RPN++在VOT2018 上的性能要好于DaSiam-RPN,因此为了让更多的跟踪器参与比较,本文选用DaSiamRPN 在VOT2018 上的实验结果与本文算法进行比较.表5 为本文算法与先进跟踪器在3种评估框架基准、非监督和实时性能下的性能对比结果.由于ATOM 未提供VOT2018 下非监督模式和实时模式下的实验结果,因此与这些指标相关的值均设置为0.

表5 VOT2018 上的实验结果Table 5 Experimental results on VOT2018

表5 中,Baseline 指VOT2018 中基于复位的监督实验[24].而非监督原理与OTB 的评估策略一致,即被评估的跟踪器仅用第1 帧给定的目标信息来初始化跟踪器,然后记录其在后续帧中的跟踪结果,最后计算平均的跟踪重叠率(Average overlap,AO).VOT-2018 中的实时性能实验部分,被用来评估跟踪器的实时性能和限定跟踪器的响应时间.精度-鲁棒性评估的是跟踪器在每一帧中预测结果与实际状态的重叠率和每个序列的平均失败次数.失败率表示当重叠率低于某一阈值时视为失败时的统计结果.EAO (Expected average overlap)是对每个跟踪器在一个短时图像序列上未发生重置的平均重叠率期望值,表示期望平均重叠率,这个值越大,表示跟踪器精确度越高.

由表5 可以看出,本文算法在3 种评测方案中均好于基准算法.在Baseline 精度-鲁棒性指标下,本文方法比基准算法提升了0.79%.当m=3,本文方法在Baseline 失败率指标下比基准算法降低8.7382%.当m=6 时,在BaselineEAO 指标下,本文方法比基准算法提升了0.51%.

在基准算法与Baseline 的FPS 指标的对比中可以发现,本文方法对于速度的影响很小,在最坏的情况下,跟踪器的速度只降低了0.8714 帧/秒.

在非监督的AO 指标对比中,当m=9 时,本文方法比基准算法提升1.84%.分析原因发现,本文方法在跟踪过程中可视为一个弱监督跟踪算法,其监督信息由第1 帧指定,为此相比于基准算法和SiamFC,本文方法在非监督评估模式下具有较大优势.

在实时性能对比中,由于本文算法采用了附加的模块,同时实时性能的评估也受到了实验平台硬件性能的影响,因此本文算法在该指标下的性能整体上较基准算法要弱,最好的情况下EAO 性能比基准算法降低0.2%.

图7 为参与对比的不同跟踪器在Baseline 下的精度-鲁棒性和跟踪失败率的对比情况.

由图7 可看出,当m=3 时,对应的精度-鲁棒性是最高的,可以看出,本文算法在只采用AC 的情况下,相应的精度较基准算法有所提高,但是鲁棒性则较基准算法有所下降,分析原因可以发现,这是因为单一的AC 可能会带来未知的噪声,而在使用了多个AC 的情况下,由于利用了不同帧间的目标信息,不同AC 模块之间的噪声可以通过均值滤波的方式进行抑制.在AC 内部噪声被抑制的同时,多个异步相关模块的引入也带来对于目标在多种状态(包括形状、色彩等)的鲁棒性,这使得跟踪器具有了目标在不同时间维度上的信息,在利用这些信息处理后续目标帧时,跟踪器可充分利用前几帧目标信息来计算当前帧目标响应.通过利用不同时刻目标差异信息来增强跟踪器对目标各种变化的鲁棒性,使算法可以在精度与鲁棒性上都有较好表现.

图7 精度-鲁棒性跟踪失败情况对比图Fig.7 Comparison of accuracy robustness and tracking faliure

图8 为不同跟踪器在VOT2018,包含光照变化、相机运动、运动变化、遮挡、尺度变化等,情景的精度-鲁棒性对比,这些情景与OTB2013 类似,不同的是OTB 中包含11 种情景,VOT2018 包含6 种.

图8 在VOT2018 序列的不同情景下精度-鲁棒性对比情况Fig.8 Comparison of accuracy robustness performance under different attributes on VOT2018

由图8 可看出,当m=3 时,跟踪器在相机运动、光照变化、运动变化、遮挡和尺度变化5 个方面的精度与鲁棒性上要优于基准算法.在相机运动的情景下,本文算法的精度达到了与第1 名的ATOM 算法相近的性能,鲁棒性也要好于ECO,仅次于ATOM.在鲁棒性和精度方面均好于DaSiam-RPN.在尺度变换、遮挡、运动变化、光照变化4 个方面的情景下,本文算法在鲁棒性上达到了第1 名的成绩.因此本文算法在不损失算法精确度的情况下,提升了算法在应对尺度变换时的鲁棒性.

在运动变化的情景下,本文算法的精确度与第1 名算法ATOM 基本一致,这一实验结果验证了,目标在发生形变后,本文算法可以有效地提升跟踪的性能的假设.

在其他跟踪情景下,本文算法在精确度-鲁棒性上与基准算法基本保持一致,同时与DaSiam-RPN 以及第1 名的ATOM 差距不大.在光照变化情景下,本文算法在精度-鲁棒性上高于基准算法和DaSiamRPN.原因依然是光照变化导致被跟踪的目标发生了剧烈的外观变化,而本文算法在解决这些外观变化方面具备一定优势.

在应对遮挡的情景时,本文算法在精度-鲁棒性上均与第1 名的ATOM 保持一致,同时在鲁棒性上高于基准算法与DaSiamRPN,这一现象的原因可以归结为多个AC 模块的引入,利用第1 帧选定的未被遮挡的目标作为监督,在线更新当前采样得到的目标样本,从而使其在兼顾多帧目标和遮挡语义的同时,也能保持与初始选定的目标相近的语义信息,保证了跟踪性能.

由图9 可以看出,基于相关滤波的KCF和SRDCF 在序列长度增加到200 帧后,其对应的期望重叠率性能低于0.2,这说明KCF 和SRDCF 的跟踪性能对序列的长度更敏感.SiamFC 在序列长度超过200 帧时性能出现了明显下降,对应的EAO只有0.2.本文算法在m=6 时,比基准算法有较大的提升.

图9 跟踪器在VOT2018 基准模式下的期望重叠率性能对比Fig.9 Trackers＇expected overlap performance comparisons on VOT2018

本文在VOT2018 的非监督实验模式下与基准算法以及其他最新的跟踪器进行对比,得到非监督模式下的期望重叠率对比曲线如图10 所示.可以看出,本文算法在4 个情景下对基准算法有明显提升.当m=9 时,本文算法在所有6 种情况下的性能都好于基准算法.在光照变化情景下,好于DaSiamRPN.在所有7 种情况下,本文算法均好于OTB 中第1 名的算法ECO.当m=9 时,跟踪器在所有6 种情景下表现最好.在整体对比环节,m=9时有更好性能.同时,与最先进的单目标跟踪器相比,本文算法也有较强竞争力.由于ATOM 未给出在非监督模式下的评测结果,因此本文显示的都为0.

图10 在VOT2018 的非监督模式下的EOA 对比曲线Fig.10 EOA comparison curve of unsupervisized training on VOT2018

在VOT2018 的实时性能对比中,得到的期望平均重叠率曲线如图11 所示.可以看出,本文算法与基准算法的实时性能相比较差.因为本文算法使用异步互相关模型增加了额外开销,因而实时性能较基准算法差,但损失的实时性能要远小于跟踪精度与鲁棒性的提升.

图11 在VOT2018 的实时性能对比下的EOA 对比曲线Fig.11 EOA comparison curve in realtime on VOT2018

为更加直观地看出本文算法与其他算法在实时性能上的对比情况,本文将不同跟踪器在实时性能上的期望重叠率排名情况进行可视化,如图12所示.可以看出,虽然所提算法在实时性能上有所牺牲,但该指标下的跟踪精度损失很小.同时,本文算法在监督实验和非监督实验上的性能都要普遍优于基准算法.

图12 在VOT2018 的实时性能对比下不同跟踪器的期望重叠率性能排名情况对比Fig.12 Ranking of different trackers＇expected overlap ratio in realtime on VOT2018

针对基于孪生网络的单目标跟踪器在面对相似语义目标时会发生跟踪失败的情况,本文提出了一种异步相关的判别性学习模型,在Got-10k、TC128、OTB 和VOT2018 数据集上的实验结果表明,本文算法可显著提升跟踪器鲁棒性和精度.在Got-10k上的消融实验表明,本文提出的异步相关判别模型、二阶优化方法和基于KL 散度的多模型融合管理算法,可有效提升跟踪性能,并在TC128 上做了进一步的验证.在OTB 上对跟踪器在不同跟踪条件下的跟踪性能进行对比发现,本文算法可有效改善基准算法在11 种跟踪情景下的性能.并在Got-10k上进行了实验结果的可视化,验证了本文方法带来的判别性.同时在OTB 上对这一判别性做了进一步验证.最后本文在VOT2018 中验证了本文方法可以有效提升基准算法的精度和鲁棒性.通过引入异步相关模型,本文算法在牺牲较少实时性能的情况下提升了准确度.在未来的工作中,将探究一种自适应使用异步相关模型个数的方法,以增强跟踪器的泛化性能.

猜你喜欢跟踪器鲁棒性基准光伏跟踪器阵列跟踪精度的测算方法研究太阳能(2022年3期)2022-03-29浅析一种风光储一体化跟踪器太阳能(2020年3期)2020-04-08荒漠绿洲区潜在生态网络增边优化鲁棒性分析农业机械学报(2020年2期)2020-03-09基于确定性指标的弦支结构鲁棒性评价中华建设(2019年7期)2019-08-27超长待机的自行车位置跟踪器当代工人·精品C(2019年2期)2019-05-10双向多轨迹判定方法在目标跟踪中的应用研究计算机应用与软件(2017年7期)2017-08-12基于非支配解集的多模式装备项目群调度鲁棒性优化项目管理技术(2016年12期)2016-06-15明基准讲方法保看齐公民与法治(2016年19期)2016-05-17非接触移动供电系统不同补偿拓扑下的鲁棒性分析西南交通大学学报(2016年6期)2016-05-04滑落还是攀爬读者·校园版(2015年7期)2015-05-14

推荐访问:判别算法性学