注意力聚集无锚框的孪生网络无人机跟踪算法

doi:10.3785/j.issn.1008-973X.2023.10.004

注意力聚集无锚框的孪生网络无人机跟踪算法

王海军^,, 马文来, 张圣燕

1. 滨州学院山东省高校航空信息与控制重点实验室，山东滨州 256603

2. 南京航空航天大学民航学院，江苏南京 211106

Attention aggregation siamese network with anchor free scheme for UAV object tracking

WANG Hai-jun^,, MA Wen-lai, ZHANG Sheng-yan

1. Key Laboratory of Aviation Information and Control in University of Shandong, Binzhou University, Binzhou 256603, China

2. College of Civil Aviation, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China

收稿日期: 2022-12-9

基金资助:

山东省自然科学基金资助项目（ZR2020MF142）；滨州学院博士启动基金资助项目（2021Y04）；滨州学院重大科研基金资助项目（2019ZD03）

Received: 2022-12-9

Fund supported:

山东省自然科学基金资助项目（ZR2020MF142）；滨州学院博士启动基金资助项目（2021Y04）；滨州学院重大科研基金资助项目（2019ZD03）

作者简介 About authors

王海军（1980—），男，副教授，从事目标跟踪算法研究.orcid.org/0000-0003-2481-9662.E-mail：whjlym@163.com , E-mail：whjlym@163.com

摘要

针对无人机目标跟踪过程中经常出现角度变化、形变、相似物体干扰等问题，提出轻量级注意力聚集无锚框的孪生网络无人机实时目标跟踪算法. 考虑到无人机高空视角跟踪目标较小，在特征模板两分支中引入高效通道注意力机制，能够有效获取目标的语义信息和细节信息. 在融合两层响应的基础上，引入空间注意力机制，能够有效地聚合注意力特征，同时扩大模型的视野范围. 引入无锚框机制，针对每个像素进行分类和预测回归目标框，减少了模型复杂度，大大降低了计算量. 在UAV123@10fps、UAV20L和DTB70等无人机跟踪数据集上与多个当前比较流行的算法进行对比实验，结果表明，所提算法在3个无人机数据集上的平均跟踪速度达到155.2 帧/s，在多种复杂环境下，均能实现对目标的有效跟踪.

关键词： 无人机 ; 目标跟踪 ; 无锚框 ; 孪生网络 ; 通道注意力

Abstract

A real-time UAV object tracker based on lightweight and attentional aggregation siamese network with anchor free scheme was proposed, aiming at the problems of viewpoint change, deformation and similar objects around in UAV tracking tasks. Considering the small number of object pixels in the view of UAV high-altitude platform, an efficient channel attention scheme was introduced to the two branches of template. Then semantics information and detail information can be effectively extracted. A spatial attention scheme was constructed to effectively aggregate attention and enlarge the visual field range after fusing the response of two layer. An anchor free mechanism was built to directly classify and predict the object box on each pixel, which can simplify the complexity of model and reduce the calculation cost. The proposed method was conducted on three public UAV data sets such as UAV123@10fps、UAV20L and DTB70, and compared with other state-of-the-art tracking algorithms. The experimental results show that the proposed method can track the target effectively in many challenging scenes with an average speed of 155.2 frame per second on three UAV benchmarks.

Keywords： unmanned aerial vehicle ; object tracking ; anchor free ; siamese network ; channel attention

PDF (2572KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

王海军, 马文来, 张圣燕. 注意力聚集无锚框的孪生网络无人机跟踪算法. 浙江大学学报(工学版)[J], 2023, 57(10): 1945-1954 doi:10.3785/j.issn.1008-973X.2023.10.004

WANG Hai-jun, MA Wen-lai, ZHANG Sheng-yan. Attention aggregation siamese network with anchor free scheme for UAV object tracking. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(10): 1945-1954 doi:10.3785/j.issn.1008-973X.2023.10.004

近年来，无人机(unmanned aerial vehicle, UAV)由于体积小、操作简单、动作灵活等特点，在军用、民用领域中得到广泛地应用，例如侦查敌情、精准打击、航空摄影、电力巡检、地理测绘、灾害救援、精准农业等. 作为无人机应用的关键技术之一，无人机目标跟踪算法成为计算机视觉领域的研究热点，得到了学者们的广泛关注^[1-4]. 相对于地面平台，无人机空中平台获得的视频具有角度多变、分辨率低、严重遮挡、运动模糊、尺度变化等严重干扰目标跟踪的因素，使得设计一种准确鲁棒的无人机目标跟踪算法具有十分重要的意义.

目前目标跟踪技术主要分为2大类：相关滤波法和深度学习法. 相关滤波方法将时域的卷积运算变换到频域进行点积运算，大大提高了跟踪速度. Bolme等^[5]将相关滤波引入到目标跟踪领域，提出误差最小平方和(minimum output sum of squared error, MOSSE)跟踪方法，跟踪速度超过了600 帧/s. Henriques等^[6]将多通道特征引入到核相关滤波(kernel correlation filter, KCF)中，在保证跟踪速度的同时，改善了跟踪性能. Huang等^[7]提出抑制畸变相关滤波(aberrance repressed correlation filters, ARCF)的无人机跟踪方法，对相关滤波响应图中的畸变或异常进行抑制，实现对目标的准确定位. Li等^[8]提出自动时空正则化(automatic spatio-temporal regularization tracker, AutoTrack)无人机跟踪算法，对空间权值和时间权值同时进行动态调整，有效提高了算法的稳定性. Lin等^[9]提出双向不一致感知相关滤波器(bidirectional incongruity-aware correlation filter, BiCF)，将基于响应双向不一致的误差融合到相关滤波中，学习跟踪目标的外观变化，解决了跟踪过程中由于目标和背景变化导致的失败现象. 虽然相关滤波方法取得较好的跟踪性能，但是该类方法大多采用灰度、颜色、纹理等手工特征，只适用于像素级目标定位，对旋转变形的鲁棒性很差，导致跟踪准确性和跟踪成功率的性能不高. 部分相关滤波类方法采用卷积特征，改善了跟踪效果. 在采用边缘计算设备（如英伟达Jetson AGX Orin 32GB）作为无人机平台计算资源时，跟踪速度大多小于30 帧/s，难以满足无人机平台实时的跟踪需求.

深度学习类跟踪方法采用离线训练网络模型提取跟踪目标的深度特征，能够有效地进行目标表征，在保证跟踪速度的同时，大大提升了跟踪性能. Bertinetto等^[10]将全卷积孪生神经网络(fully-convolutional siamese networks, SiamFC)应用到目标跟踪领域，通过学习搜索区域与目标模板的相似度响应图来确定目标位置，该方法显著提升了基于深度学习目标跟踪的速度. Li等^[11]在SiamFC基础上提出孪生候选区域生成网络(siamese region proposal network, SiamRPN)，将目标跟踪看成局部单目标检测任务，在保证较快跟踪速度的同时，有效提升了跟踪性能. SiamFC和SiamRPN都是采用浅层神经网络提取出目标特征，限制了目标的深层表征能力. Li等^[12]突破深层神经网络不能应用到目标跟踪领域的限制，结合目标浅层和深层特征，在多个跟踪数据集上取得较好的跟踪性能. Xu等^[13]提出改进版全卷积孪生神经网络(fully convolutional siamese tracker++, SiamFC++)算法，同时引入分类和状态估计分支，进一步提高了跟踪准确度. 目前深度学习类目标跟踪算法取得突破性进展，大部分采用深度神经网络提取目标特征，加大计算复杂度，难以适应无人机平台的硬件配置. 本研究提出注意力聚集无锚框的孪生网络无人机目标跟踪算法，在3个无人机数据集上进行测试仿真，实现对目标位置和所占区域的准确估计.

1. SiamFC跟踪算法

SiamFC算法将目标跟踪问题转化为相似度学习任务，通过学习相似度度量函数 $ f\left( {z,x} \right) $来比较模板图像 ${\boldsymbol{z}}$和搜索图像 ${\boldsymbol{x}}$的相似性：

(1) $ f\left( {{\boldsymbol{z}},{\boldsymbol{x}}} \right) = \varphi \left( {\boldsymbol{z}} \right) * \varphi \left( {\boldsymbol{x}} \right)+b \cdot {\boldsymbol{I}}. $

式中： $ \varphi \left( \cdot \right) $为特征提取器， $ * $为互相关运算， $ b \cdot {\boldsymbol{I}} $为响应图中每个位置的取值， $ {\boldsymbol{I}} $为单位矩阵. 响应图中取值最高的位置，即是跟踪目标的位置.

虽然SiamFC算法比较简单，兼顾了跟踪复杂度和跟踪准确度，但是当跟踪目标出现遮挡、快速运动、背景杂乱时，容易出现错误累加，导致跟丢目标. SiamFC跟踪算法如图1所示.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 SiamFC算法的流程图

Fig.1 Flowchart of SiamFC algorithm

2. 注意力聚集无锚框孪生跟踪算法

2.1. 算法整体框架

针对无人机的有限计算资源，本研究提出注意力聚集无锚框的孪生网络无人机跟踪算法(attention aggregation siamese network with anchor free scheme for UAV tracker, AASAF)，算法流程图如图2所示，主要包括以下4个方面.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 AASAF算法的流程图

Fig.2 Flowchart of AASAF algorithm

1）构造以轻量级模型AlexNet为主干网络的孪生跟踪框架，同时在2个模板分支上引入高效通道注意力机制，使得跟踪算法具有较强的特征表达能力.

2）融合双层相关响应，同时引入空间注意机制，能够有效聚合注意力特征，扩大模型的视野范围，充分利用特征的内在相关性.

3）引入无锚框机制来预测目标的位置和回归框，大大降低算法的复杂度，有效地提升了跟踪速度和跟踪性能.

4）在3个无人机跟踪数据集上进行仿真实验，与当前比较流行的算法进行对比实验，验证了所提AASAF算法的优越性.

使用AlexNet浅层网络提取模板图像和搜索图像特征， $ {\varphi _4}\left( {\boldsymbol{z}} \right) $和 $ {\varphi _5}\left( {\boldsymbol{z}} \right) $分别为模板分支第4层和第5层提取的模板特征， $ {\varphi _4}\left( {\boldsymbol{x}} \right) $和 $ {\varphi _5}\left( {\boldsymbol{x}} \right) $分别为搜索分支第4层和第5层提取的搜索图像特征. 分别将 $ {\varphi _4}\left( {\boldsymbol{z}} \right) $和 $ {\varphi _5}\left( {\boldsymbol{z}} \right) $输入到高效通道注意力模块^[14](efficient channel attention, ECA)，提高模板特征的网络表达能力，对应新的模板特征分别为 $ \varphi _4^{'}\left( {\boldsymbol{z}} \right) $和 $ \varphi _5^{'}\left( {\boldsymbol{z}} \right) $，并对2条支路的特征图分别进行深度互相关操作：

(2) $ {{\boldsymbol{R}}_4} = g\left( {\varphi _4^{'}\left( {{\boldsymbol{z}}} \right)} \right) \otimes g\left( {{\varphi _4}\left( {\boldsymbol{x}} \right)} \right), $

(3) $ {{\boldsymbol{R}}_5} = g\left( {\varphi _5^{'}\left( {\boldsymbol{z}} \right)} \right) \otimes g\left( {{\varphi _5}\left( {\boldsymbol{x}} \right)} \right). $

式中： ${{\boldsymbol{R}}_4}$、 ${{\boldsymbol{R}}_5}$分别对应两层深度互相关操作 $ \otimes $得到的响应图， $ g\left( \cdot \right) $为卷积操作模块. 将响应图 ${{\boldsymbol{R}}_4}$、 ${{\boldsymbol{R}}_5}$进行拼接操作，输入到空间注意力模块，调整响应图的上下文信息，并分别输入到分类回归网络和锚点建议网络，确定目标位置和尺度.

2.2. 通道注意力机制

传统SiamFC算法使用AlexNet网络提取图像特征，由于没有考虑通道信息，导致当跟踪场景比较复杂以及目标发生较大变化时容易跟丢目标. 为了增强模板的表征能力，Rahman等^[15]直接将通道和空间注意力机制^[16](convolutional block attention module, CBAM)加到传统SiamFC算法的模板分支中，虽然改善了跟踪效果，但是由于CBAM模块的引入，增加了模型的复杂度，降低了算法的跟踪速度. 为了有效地提升图像的表征能力，使得算法在提高跟踪性能的同时具有较高的跟踪速度，所提算法在AlexNet网络模板分支的第4层和第5层分别引入高效的通道注意力模块，考虑到每个通道及其邻域通道，通过一维卷积快速完成通道权重的计算，实现对不同通道赋予不同的权值，有选择地加强有用通道信息，抑制无用通道信息. 通道注意力模块的结构如图3所示.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 通道注意力的结构图

Fig.3 Mechanism diagram of channel attention

每个通道的权重因子为

(4) $ {w_i} = \sigma \left( {\sum\limits_{j = 1}^k {w_i^jy_i^j} } \right);{\text{ }}y_i^j \in \varOmega _i^k. $

式中： $ j $为邻域通道变量； $ i $为当前第 $ i $个通道； $ y_i^j $为当前所增强的特征； $ w_i^j $为特征 $ y_i^j $对应的权重； $ \varOmega _i^k $为特征 $ y_i^j $对应的 $ k $个邻域的集合； $ \sigma \left( \cdot \right) $为激活函数， $\sigma \left( x \right) =(1+e^{-x})^{-1}$. 为了减少计算量，加快计算速度，采用一维卷积完成通道间的交互：

(5) $ {\boldsymbol{w}} = \sigma \left( {{\rm{C1D}}_{k}\left( {\boldsymbol{y}} \right)} \right). $

式中： ${\rm{C1D}}_{k}$为一维卷积，只有 $ k $个参数.

通过引入残差结构，经过通道聚集后的特征为

(6) $ {\tilde {\boldsymbol{y}}_i} = {w_i} {{\boldsymbol{y}}_i}+{{\boldsymbol{y}}_i};\;\;\; i = 1,2, \cdots ,C. $

式中： $ C $为特征 $ {y_i} $的通道数.

2.3. 空间注意力机制

以往大部分孪生类跟踪方法都是将得到的响应图直接用于跟踪目标位置的确定和目标框的回归，忽略响应图中的特征依赖关系，导致算法在复杂场景下跟踪效果不佳. 为了更好地提升响应图的特征聚合能力以及提高算法的鲁棒性，受Fu等^[17]的启发，在响应图中引入空间注意力模块，学习响应图中相似特征的依赖关系，以便更加准确地确定目标位置以及回归目标框的大小，其中空间注意力模块结构如图4所示.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 空间注意力结构图

Fig.4 Mechanism diagram of spatial attention

响应图 ${{\boldsymbol{R}}^{C \times H \times W}}$分别通过3个卷积层，得到3个特征图 ${\boldsymbol{Q}}$、 $ {\boldsymbol{K}} $、 $ {\boldsymbol{V}} $，并将空间维度分别重塑为 $ C \times ( H \times W ) $，然后将转置后的 $ {\boldsymbol{Q}} $与重塑后的 $ {\boldsymbol{K}} $相乘，并通过归一化指数函数得到空间特征权值 $ {{\boldsymbol{S}}^{\left( {H \times W} \right) \times \left( {H \times W} \right)}} $， $ {\boldsymbol{S}} $矩阵中的每个元素为

(7) $ {s_{j,i}} = \frac{{\exp \left( {{{\boldsymbol{Q}}_i} \cdot {{\boldsymbol{K}}_j}} \right)}}{{\displaystyle\sum\limits_{i = 1}^{H \times W} {\exp \left( {{{\boldsymbol{Q}}_i} \cdot {{\boldsymbol{K}}_j}} \right)} }}. $

式中： ${s_{j,i}}$为响应图中位置 $ i $处对位置 $ j $处的影响. 将 $ {\boldsymbol{S}} $转置与重塑后的 $ {\boldsymbol{V}} $做乘积后再乘以尺度系数 $ \alpha $，并将空间维度重塑为 $C \times H \times W$，最后与原始响应图 $ {\boldsymbol{R}} $相加得到最终加权后的响应图 $ {{\boldsymbol{R}}^{'}} $. $ {{\boldsymbol{R}}^{'}} $中每个元素为

(8) $ {{\boldsymbol{R}}^{'}}_j = \alpha \sum\limits_{i = 1}^{H \times W} {\left( {{s_{j,i}}{{\boldsymbol{V}}_i}} \right)+{{\boldsymbol{R}}_j}} . $

式中： $ {{\boldsymbol{R}}^{'}} $中每个位置上的数值是原始响应图与加权后响应值进行求和得到的，可以准确地捕获任意2个空间位置之间的依赖关系.

2.4. 无锚框机制

SiamRPN系列跟踪算法依赖锚点进行目标的分类和回归，虽然在部分视频上取得较好的跟踪效果，但是当跟踪目标遇到较大形变和尺度变化时，锚点与锚框的先验尺寸和长宽比限制了算法的鲁棒性，容易跟丢目标. 为了克服锚点式跟踪器的缺点，引入无锚框分类回归子网络，在响应图 $ {{\boldsymbol{R}}^{'}} $中的每个位置产生一个锚点 $ \left( {i,j} \right) $，同时对应搜索图像 $ {\boldsymbol{x}} $上位置 $ \left( {{p_i},{p_j}} \right) $：

(9) $ {p}_{i}=\frac{{w}_{{\rm{s}}}}{2}+\left(i-\frac{w}{2}\right)\times s\text{，}{p}_{j}=\frac{{h}_{{\rm{s}}}}{2}+\left(j-\frac{h}{2}\right)\times s. $

式中： $ {w_{\rm{s}}} $和 $ {h_{\rm{s}}} $分别为搜索图像 $ {\boldsymbol{x}} $的宽和高， $ s $为网络的步长. 为了更加准确地确定目标位置及目标框大小，从响应图 $ {{\boldsymbol{R}}^{'}} $引出3个分支，即1个分类分支和2个回归分支，如图2所示. 分类分支输出3个分类特征图： ${\boldsymbol{H}}_{w \times h \times 2}^{{\rm{cls1}}}$、 ${\boldsymbol{H}}_{w \times h \times 2}^{{\rm{cls2}}}$、 ${\boldsymbol{H}}_{w \times h \times 1}^{{\rm{cls3}}}$. $ {\boldsymbol{H}}_{w \times h \times 2}^{{\rm{cls1}}} $中的每个点 $ \left( {w,h,:} \right) $包含一个二维向量，用于指示每个锚点是正例锚还是负例锚. 将与真实标注包围框交并比（intersection over union, IoU）大于0.7定为正例锚，将IoU比率小于0.3定为负例锚. $ {\boldsymbol{H}}_{w \times h \times 2}^{{\rm{cls2}}} $中的二维向量分别表示搜索图像中前景和背景的分数，当落入真实边界框内，则为前景，反之，则为背景. $ {\boldsymbol{H}}_{w \times h \times 1}^{{\rm{cls3}}} $用来评估每个预测框的质量，输出每个点的质量得分为

(10) $ C\left( {w,h} \right) = \sqrt {\frac{{\min \left( {l,r} \right)}}{{\max \left( {l,r} \right)}} \times \frac{{\min \left( {t,b} \right)}}{{\max \left( {t,b} \right)}}} . $

式中： $ l、t、r、b $为在输入搜索图像中从相应位置到边界框的4个边的距离，具体定义为

(11) $ \left.\begin{array}{l}l=x-{x}_{0},\quad t=y-{y}_{0}\text{；}\\ r={x}_{1}-x,\quad b={y}_{1}-y.\end{array} \right\} $

式中： $ \left( {{x_0},{y_0}} \right) $和 $ \left( {{x_1},{y_1}} \right) $分别为真实边界框的左上角坐标和右下角坐标， $ \left( {x,y} \right) $为锚点 $ \left( {i,j} \right) $在搜索图像上的对应位置.

综合3个分类分支，可知总分类损失函数为

(12) $ {L_{{\rm{cls}}}} = {\lambda _{{\rm{cls}}1}}{L_{{\rm{cls}}1}}+{\lambda _{{\rm{cls}}2}}{L_{{\rm{cls}}2}}+{\lambda _{{\rm{cls}}3}}{L_{{\rm{cls}}3}}. $

式中： $ {L_{{\rm{cls}}1}} $和 $ {L_{{\rm{cls}}2}} $为交叉熵损失函数， $ {L_{{\rm{cls}}3}} $为二进制交叉熵损失函数， $ {\lambda _{{\rm{cls}}1}} $、 $ {\lambda _{{\rm{cls}}2}} $、 $ {\lambda _{{\rm{cls}}3}} $分别为对应的权值.

从响应图中输出的2个回归分支特征图： ${\boldsymbol{H}}_{w \times h \times 4}^{{\rm{loc}}1}$和 ${\boldsymbol{H}}_{w \times h \times 4}^{{\rm{loc}}2}$. ${\boldsymbol{H}}_{w \times h \times 4}^{{\rm{loc}}1}$输出一个四维向量，分别为搜索图像上位置 $ \left( {x,y} \right) $回归到真实目标框4个边界的距离，定义同式（11）. ${\boldsymbol{H}}_{w \times h \times 4}^{{\rm{loc}}2}$输出搜索图像到真实目标框的偏移 $ \left( {\tilde r_{\left( {i,j} \right)}^0,\tilde r_{\left( {i,j} \right)}^1,\tilde r_{\left( {i,j} \right)}^2,\tilde r_{\left( {i,j} \right)}^3} \right) $，计算式为

(13) $ \left. \begin{array}{r} \tilde r_{\left( {i,j} \right)}^0 = \dfrac{{{g_x} - {p_x}}}{{{p_x}}},\quad\tilde r_{\left( {i,j} \right)}^1 = \dfrac{{{g_y} - {p_y}}}{{{p_y}}}; \\ \tilde r_{\left( {i,j} \right)}^2 = \ln \dfrac{{{g_w}}}{{{p_w}}},\quad \tilde r_{\left( {i,j} \right)}^3 = \ln \dfrac{{{g_h}}}{{{p_h}}}. \end{array} \right\} $

式中： $ {g}_{x}、{g}_{y}、{g}_{w}、{g}_{h} $分别为真实目标框的中心点坐标和宽、高， $ {p}_{x}、{p}_{y}、{p}_{w}、{p}_{h} $分别为预测图像框的中心点和宽、高. 综合2个回归分支可知，总回归损失函数为

(14) $ {L_{{\rm{loc}}}} = {\lambda _{{\rm{loc}}1}}{L_{{\rm{loc}}1}}+{\lambda _{{\rm{loc}}2}}{L_{{\rm{loc}}2}}. $

式中： $ {L_{{\rm{loc}}1}} $为IoU损失函数， $ {L_{{\rm{loc}}2}} $为平滑 $ {l _1} $损失函数. $ {\lambda _{{\rm{loc}}1}} $和 $ {\lambda _{{\rm{loc}}2}} $分别为对应的权重参数.

综合分类损失和回归损失，整体损失函数为

(15) $ L = {\lambda _1}{L_{{\rm{cls}}}}+{\lambda _2}{L_{{\rm{loc}}}}. $

式中： $ {\lambda _1} $和 $ {\lambda _2} $分别为分类和回归权重系数.

3. 实验与分析

3.1. 实验平台及参数设置

所提算法的实验平台如下：CPU为Inter Xeon(R) Silver 4216@2.10 GHz，内存为512 GB，显卡为Tesla V100 32 G，操作系统为Ubuntu 16.04，编程环境为基于python 3.6的Pytorch.

训练数据如下：包含91类目标、32.8万个影像、250万个标签的COCO数据集^[18]；含有30个基本类别、200个子集的Image VID数据集^[19]；含有563个目标类别、87种运动模式、超过1万条视频的GOT-10K数据集^[20]；含有38万个视频片段、23个类别、560万个手动标注边界框的Youtube-BB数据集^[21].

参数设置如下：所提算法采用AlexNet作为主干模型，采用随机梯度下降法训练网络，迭代次数为50，每批次处理图像124对. 前10个迭代次数特征提取网络的参数被冻结，后40个迭代次数对整个网络进行端到端的训练，学习率随着迭代次数变化从0.005指数衰减到0.000 5，动量设置为0.9. 模板图像的大小为 $ 127 \times 127 $像素，搜索图像的大小为 $ 287 \times 287 $像素.

3.2. 实验结果与分析

为了验证所提算法的跟踪性能，在UAV123@10fps^[22]、UAV20L^[22]和DTB70^[23]这3个广泛应用的无人机数据集进行仿真实验.

3.2.1. 定量分析

表1给出所提算法分别在UAV123@10fps、UAV20L和DTB70数据集上与SiamAPN^[24]、ECO^[25]、MCCT^[26]、DeepSTRCF^[27]、AutoTrack^[8]、ARCF^[7]、Ocean^[28]、BiCF^[9]、STRCF^[27]、SESiam_FC^[29]等算法的对比实验结果. 对于数据集UAV123@10fps，所提算法在跟踪准确度P和跟踪成功率S 这2个指标上分别取得了0.755和0.570，相比最优的基于相关滤波的跟踪算法ECO，分别提升了6.2%和9.6%. 对于UAV20L数据集，所提算法在跟踪准确度和跟踪成功率上都取得了最优，分别为0.744和0.571，相比SiamAPN分别提高了3.2%和5.9%. 对于DTB70数据集，所提算法跟踪准确度达到0.809，跟踪成功率达到0.608，相比其他算法在指标数值上具有明显的优势. 从表1可以看出，所提算法在3个无人机数据集上以及2个跟踪综合跟踪指标上都取得了最好的跟踪性能，具有较好的泛化性能.

表 1 11种跟踪算法在3个无人机数据库上的跟踪准确度和成功率对比

Tab.1 Comparison in terms of precision and success rate for eleven tracking algorithms on three UAV datasets

算法	P			S
算法	UAV123@10fps	UAV20L	DTB70	UAV123@10fps	UAV20L	DTB70
AASAF	0.755	0.744	0.809	0.570	0.571	0.608
SiamAPN	0.752	0.721	0.784	0.566	0.539	0.586
SESiam_FC	0.717	0.648	0.730	0.512	0.453	0.490
ECO	0.711	0.589	0.722	0.520	0.427	0.502
MCCT	0.684	0.605	0.725	0.492	0.407	0.484
DeepSTRCF	0.682	0.588	0.734	0.499	0.443	0.506
AutoTrack	0.671	0.512	0.716	0.477	0.349	0.478
ARCF	0.666	0.544	0.694	0.473	0.381	0.472
BiCF	0.662	0.486	0.657	0.475	0.356	0.462
Ocean	0.657	0.630	0.634	0.462	0.444	0.455
STRCF	0.627	0.575	0.649	0.457	0.411	0.437

新窗口打开| 下载CSV

为了准确比较不同算法在各种挑战性场景下的跟踪性能，图5给出7种跟踪算法在3个无人机数据集上不同属性的跟踪准确度和成功率对比. 第1列为不同属性的跟踪准确度对比，第2列为不同属性的跟踪成功率对比. 无人机跟踪视频一般具有下列几种挑战性属性，分别为宽高比变化（aspect ratio variation, ARV）、背景杂乱（background clutter, BC）、形变（deformation, DEF）、相机快速运动（fast camera motion, FCM）、平面内旋转（in-plane rotation, IPR）、运动模糊（motion blur, MB）、遮挡（occlusion，OCC）、平面外旋转（out-of-plane rotation, OPR）、视野外（out-of-view, OV）、尺度变化（scale variation, SV）、相似物体干扰（similar objects around, SOA）、完全遮挡（full_occlusion, FOC）、部分遮挡（partial_occlusion, POC）、快速运动（fast_motion, FM）、光照变化（illumination_variation, IV）、视角变化（viewpoint change, VC）、长程跟踪（long-term tracking, LTT）. 从图5可以看出，所提AASAF算法相比其他较好的6种跟踪算法，几乎在所有的挑战性属性上，无论是跟踪准确度还是跟踪成功率指标都取得了最好的成绩.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 7种跟踪算法在3个无人机数据集上不同属性的跟踪准确度和成功率对比

Fig.5 Comparison in terms of precision and success rate of 7 tracking algorithms for different attributes on three UAV datasets

3.2.2. 定性分析

为了验证所提算法的优越性，图6给出7种不同算法在3个无人机数据集上的部分跟踪仿真结果. 图像中左上方的“#数字”表示跟踪结果的帧号. 图6 (a)person17_1、(b)car1_2来自UAV123@10fps数据集，图6 (c)car6和(d)person7来自UAV20L数据集，图6 (e)Yacht4、(f)ChasingDrones和(g)BMX5来自DTB70数据集.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 不同算法的部分仿真结果

Fig.6 Partial tracking results of different algorithms

在图6 (a)中，当行人经过路边树木时，存在严重遮挡（如190 帧），树叶颜色与行人衣服非常接近，SiamAPN、BiCF算法难以准确对目标人物和遮挡树木进行识别，从而跟丢目标. 所提算法由于采用通道注意力机制对不同通道特征进行加权，能够分辨出目标人物，从而实现准确跟踪.

在图6 (b)中，由于无人机距离目标汽车较远，利用传统相关滤波算法难以获取目标信息，导致视频中汽车占据的面积较小. 当转弯时（如205帧），ECO算法跟丢目标汽车；当遇到遮挡时（如293帧），MCCT和BiCF都完全跟丢目标，所提算法和SiamAPN算法在整个视频全过程中都能实现小目标的准确定位与跟踪.

图6 (c)的car6视频属于长时跟踪视频，帧数多达4 000多帧. 在对目标车辆进行跟踪过程中，由于无人机角度及高度变化，目标汽车存在较大的形变及尺度变化. 所提算法采用无锚框机制，直接确定目标中心点到边框的距离，能够较准确地回归目标框尺寸，实现对目标的准确定位. 在其他大多数算法中，目标框虽然也在目标汽车上，但是难以获得汽车的准确尺寸.

在图6 (d)中，目标人物在草地上快速跑动，无人机大部分场景在目标人物上方，同时在部分场景中，目标人物跑到无人机视野外（如700帧）. 当目标重新出现时，由于所提算法采用空间注意力机制，能够获取全局信息，从而能够重新对目标进行定位.

在图6(e)中，多个快艇出现在视野中，同时目标快艇被前面大艇遮挡（如240 帧），其他多数算法都偏移到干扰快艇上，只有所提算法能够始终实现对目标的定位，同时准确获取快艇的目标框. 在图6(f)中，目标无人机在空中快速飞行，目标小且速度快，同时存在形变及背景干扰（如160 帧）. 可以看出，多数算法难以适应空中小目标的快速移动，从而跟丢目标，利用所提算法能够克服其他算法缺点，获得目标的鲁棒特征，从而实现准确的定位. 在图6 (g)中，骑行运动员在场地内快速移动、目标人物外观变化比较频繁，可以看出，虽然多数算法能够实现对目标的定位，但是不能获得准确的目标框，只有所提算法和SiamAPN算法能够获得准确的目标框.

3.3. 跟踪速度对比

表2给出不同算法在UAV123@10fps、UAV20L和DTB70数据集上的跟踪速度对比. 所有算法都在相同的实验平台上进行仿真. 可以看出，AASAF算法和SiamAPN算法在保证跟踪性能的同时，在3个数据集上的平均速度 $ v $超过150 帧/s，能够满足实时跟踪的要求. 基于深度神经网络提取目标特征的相关滤波算法的计算量比较大，跟踪速度较慢，难以满足无人机平台轻量级计算资源的需求. 为了验证所提算法在实际无人机平台搭载边缘计算模块运行的可行性，利用AASAF算法在英伟达Jetson AGX Orin 32GB开发平台上进行仿真实验. 在3个无人机数据集上的平均跟踪速度达到36.2帧/s，能够实现实时跟踪，表明所提算法在满足无人机平台搭载轻量级计算资源的前提下，可以实现快速鲁棒跟踪.

表 2 不同算法在UAV123@10fps、UAV20L和DTB70数据集上的跟踪速度对比

Tab.2 Comparison of tracking speed on UAV123@10pfs、UAV20L and DTB70 by different algorithms

帧/s
数据集	AASAF	SiamAPN	DeepSTRCF	MCCT	ECO	MCPF	STRCF	ARCF	AutoTrack	Ocean	SESiam_FC
UAV123@10fps	154.0	162.5	5.4	8.0	15.7	0.5	22.2	21.9	44.8	88.3	41.2
UAV20L	147.9	139.0	6.2	8.4	12.7	0.6	26.9	24.1	47.6	89.8	41.1
DTB70	163.7	167.8	6.2	8.6	11.6	0.6	26.3	24.3	48.6	89.7	41.3
平均速度	155.2	156.4	5.9	8.3	13.3	0.57	25.1	23.4	47.0	89.3	41.2

新窗口打开| 下载CSV

3.4. 消融实验

表3给出基准算法baseline在通道注意力机制、空间注意力机制作用下，分别在3个无人机数据库上的跟踪准确度和跟踪成功率对比. 基准算法baseline表示没有采取上述2种注意力机制. 从表3可以看出，基准算法在3个数据库上的跟踪准确度和跟踪成功率均最低；当通道注意力机制和空间注意力机制分别单独作用时，与基准算法baseline相比，跟踪性能均有一定程度的改进，表明通道注意力机制的特征聚合作用和空间注意力机制的扩大视野范围对baseline算法的跟踪性能均有一定程度的提升作用. 当2种注意力机制同时作用在baseline算法时，AASAF算法的跟踪准确度和跟踪成功率2个指标改进最大.

表 3 基准算法与不同注意力机制结合在3个无人机数据库上的跟踪性能对比

Tab.3 Comparison of tracking performance conducted on baseline algorithm with different attention schemes on three UAV datasets

不同模块组成算法	P			S
不同模块组成算法	UAV123@10fps	UAV20L	DTB70	UAV123@10fps	UAV20L	DTB70
baseline	0.734	0.686	0.768	0.555	0.518	0.589
baseline+通道注意力机制	0.752	0.692	0.798	0.567	0.523	0.605
baseline+空间注意力机制	0.738	0.708	0.794	0.555	0.537	0.589
baseline+通道注意力机制+空间注意力机制(AASAF算法)	0.755	0.744	0.809	0.570	0.571	0.608

新窗口打开| 下载CSV

3.5. 与Transformer跟踪方法的对比

Transformer在计算机视觉领域取得了巨大的成功，并被广泛应用于目标跟踪领域. 由于Transformer具有良好的捕获长距离依赖关系能力，在长时程视频以及目标被遮挡时，表现出较好的跟踪性能. 如表4所示为所提算法与4种基于Transformer的跟踪方法在UAV20L数据集上的跟踪性能对比. 可以看出，Transt、TrDiMP和SiamTPN 这3种算法在UAV20L数据集上的跟踪准确度和跟踪成功率都取得比AASAF算法更好的跟踪性能，但是这3种算法的跟踪速度相比所提算法较慢，限制了其在无人机平台上的部署应用. HCAT算法虽然取得了较快的跟踪速度，但是跟踪性能相比AASAF算法较低. 综合跟踪性能和跟踪速度，相比其他4种基于Transformer的跟踪算法，AASAF算法在无人机平台上具有较好的应用前景.

表 4 与基于Transformer跟踪方法在UAV20L数据集上的跟踪性能对比

Tab.4 Comparison of tracking performance with transformer based trackers on UAV20L

方法	骨干网络	P	S	$v$/(帧·s⁻¹)
Transt^[1]	RestNet50	0.819	0.631	39.9
TrDiMP^[30]	RestNet50	0.768	0.620	15.7
HCAT^[31]	RestNet18	0.676	0.510	104.1
SiamTPN^[32]	ShuffleNetV2	0.793	0.607	32.9
AASAF	AlexNet	0.744	0.571	147.9

新窗口打开| 下载CSV

4. 结　论

(1) 在传统AlexNet主干网络输出的2个模板分支中引入高效通道注意力机制，能够显著提升模型的特征提取能力和判别能力.

(2) 将两层相关响应进行融合，引入空间注意力机制，通过聚合注意力特征，扩大模型的全局视野，能够提取更多有效的语义信息.

(3) 引入无锚框机制，直接在每个像素上分类和预测回归框，有效降低运算复杂度，提升跟踪性能.

(4) 在UAV123@10fps、UAV20L和DTB70 3个无人机数据集上的跟踪结果表明，所提算法的跟踪准确度分别达到0.755、0.744和0.809，跟踪成功率分别达到0.570、0.571和0.608，且在较高的跟踪准确度和跟踪成功率下，Tesla V100 32 GB上的平均速度可达155.2 帧/s，边缘计算设备Jetson AGX Orin 32GB上的平均速度可达36.2 帧/s，在无人机平台上具有较好的应用前景.

未来将搭建无人机实际飞行跟踪的测试平台，在长时程及遮挡方面提高无人机在真实环境下的跟踪性能，验证算法在高空平台上的实际跟踪效果，从而满足无人机实时跟踪的实际工程需求.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

CHEN X, YAN B, ZHU J, et al. Transformer tracking[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 8122-8131.

[本文引用: 2]

[2]

孙锐, 方林凤, 梁启丽, 等

孪生网络框架下融合显著性和干扰在线学习的航拍目标跟踪算法

[J]. 电子与信息学报, 2021, 43 (5): 1414- 1423

DOI:10.11999/JEIT200140

SUN Rui, FANG Lin-feng, LIANG Qi-li, et al

Siamese network combined learning saliency and online leaning interference for aerial object tracking algorithm

[J]. Journal of Electronics and Information Technology, 2021, 43 (5): 1414- 1423

DOI:10.11999/JEIT200140

[3]

王海军, 张圣燕, 杜玉杰

响应和滤波器偏差感知约束的无人机目标跟踪算法

[J]. 浙江大学学报: 工学版, 2022, 56 (9): 1824- 1832

WANG Hai-jun, ZHANG Sheng-yan, DU Yu-jie

UAV object tracking algorithm based on response and filter deviation-aware regularization

[J]. Journal of Zhejiang University: Engineering Science, 2022, 56 (9): 1824- 1832

[4]

刘芳, 王洪娟, 黄光伟, 等

基于自适应深度网络的无人机目标跟踪算法

[J]. 航空学报, 2019, 40 (3): 322332