藏区高原典型环境地形目标的轻量化检测模型

doi:10.3785/j.issn.1008-973X.2026.03.015

藏区高原典型环境地形目标的轻量化检测模型

雒伟群^,, 陆敬蔚, 吴佳缔, 梁钰迎, 申传鹏, 朱睿^,

1. 西藏民族大学信息工程学院，陕西咸阳 712082

2. 厦门大学航空航天学院，福建厦门 361102

Lightweight detection model for typical environmental terrain target in Tibetan Plateau

LUO Weiqun^,, LU Jingwei, WU Jiadi, LIANG Yuying, SHEN Chuanpeng, ZHU Rui^,

1. College of Information Engineering, Xizang Minzu University, Xianyang 712082, China

2. School of Aerospace Engineering, Xiamen University, Xiamen 361102, China

通讯作者: 朱睿，男，副教授，博导. orcid.org/0000-0002-4431-5325. E-mail：zhurui@xmu.edu.cn

收稿日期: 2025-01-30

基金资助:

西藏自治区重点研发计划资助项目（XZ202401ZY0102,XZ202403ZY0019,XZ202402ZY0017）；厦门市自然科学基金资助项目（3502Z20227179）；教育部人文社会科学规划基金资助项目（23XZJAZH001）；西藏自治区自然科学基金重点资助项目（XZ202401ZR0055）；福建省自然科学基金资助项目（2022J01058）；中国航空科学基金资助项目（2023Z032068001）；水声对抗技术重点实验室基金资助项目（JCKY2024207CH05）；西藏民族大学基金资助项目（Y2024050）.

Received: 2025-01-30

Fund supported:

作者简介 About authors

雒伟群（1969—），男，教授，硕导，从事机器学习、大数据与知识工程的研究.orcid.org/0009-0007-7608-3358.E-mail：1034228464@qq.com , E-mail：1034228464@qq.com

摘要

为了解决通用航空飞行器在高原山区应用场景中，所面临的传统方法障碍物识别精度低和计算量过大等问题，提出障碍物检测模型AO-YOLO. 通过优化现有的YOLOv8n模型，引入多尺度扩张注意力机制，增强Neck网络对不同尺度特征的融合能力. 采用HGBlock结构替换原有的Bottleneck模块，通过轻量级卷积建立特征层次化关系，使网络能够同时提取局部与全局上下文信息. 结合内存高效的注意力模块与轻量级卷积模块，设计新的检测头，降低模型参数量与计算成本. 实验结果显示，在构建的高原山区障碍物数据集（FOD）上，相较于YOLOv8n，AO-YOLO的mAP@0.5指标提升了2.7%，mAP@0.5:0.95指标提升了2.0%，整体计算量减少了24.7%. 该模型在高原航空障碍物检测任务中具有精度较高和轻量化的特性.

关键词： 高原航空 ; 障碍物检测 ; 轻量化YOLOv8n ; 多尺度扩张注意力 ; 特征提取

Abstract

An obstacle detection model AO-YOLO was proposed in order to solve the problems of low accuracy and excessive calculation of obstacle recognition in traditional methods faced by general aviation aircraft in plateau mountain application scenarios. A multi-scale expanded attention mechanism was introduced by optimizing the existing YOLOv8n model in order to enhance the ability of Neck network to fuse features of different scales. HGBlock structure was used to replace the original Bottleneck module, and lightweight convolution was used to establish the feature hierarchical relationship, so that the network can extract local and global context information at the same time. The memory-efficient attention module and lightweight convolution module were combined to design a new detection head in in order to reduce the number of model parameters and computational cost. The experimental results showed that the mAP@0.5 index of AO-YOLO increased by 2.7% and the mAP@0.5:0.95 index increased by 2.0% on the constructed plateau mountain obstacle dataset (FOD) compared with YOLOv8n, and the overall calculation amount reduced by 24.7%. The proposed model has the characteristics of high accuracy and lightweight in the highland aviation obstacle detection task.

Keywords： plateau aviation ; obstacle detection ; lightweight YOLOv8n ; multi-scale dilated attention ; feature extraction

PDF (3893KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

雒伟群, 陆敬蔚, 吴佳缔, 梁钰迎, 申传鹏, 朱睿. 藏区高原典型环境地形目标的轻量化检测模型. 浙江大学学报(工学版)[J], 2026, 60(3): 594-603 doi:10.3785/j.issn.1008-973X.2026.03.015

LUO Weiqun, LU Jingwei, WU Jiadi, LIANG Yuying, SHEN Chuanpeng, ZHU Rui. Lightweight detection model for typical environmental terrain target in Tibetan Plateau. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(3): 594-603 doi:10.3785/j.issn.1008-973X.2026.03.015

通用航空在高原山区应用中面临复杂地形与障碍物识别的双重挑战. 当前障碍物检测研究多集中于平原或城市环境，难以适应高原特殊地貌，开展针对高原山区（以西藏为例）通用航空飞行器在起降及飞行过程中的地形感知与障碍物检测研究，对确保高原飞行安全至关重要.

在无人机平台的目标检测领域，传统方法如DPM和Hog+Svm^[1]步骤繁复且效率低下，而深度学习方法虽然提高了检测精度，但在速度和实时性方面存在挑战. 特别是，双阶段方法（如R-CNN^[2]、Fast R-CNN^[3]、Faster R-CNN^[4]和Mask R-CNN^[5]等）尽管精度较高，但检测速度慢，这对于需要在飞行途中快速应对障碍物的航空飞行器来说是一个严重的限制因素^[6]. 相比之下，单阶段检测方法如SSD^[7]和YOLO^[8]系列，虽然在一定程度上兼顾了精度和实时性，但在处理多尺度目标检测，尤其是小目标检测方面，存在特征丢失、模型复杂度高以及计算量大等问题^[9].

为了增强YOLO模型在航空目标检测领域的性能，多位研究者对模型进行了多种改进尝试. 在YOLOv5的结构中，Yang等^[10]引入上采样模块，提取小目标的特征图. 韩俊等^[11]改进YOLOv5s，提出LSA_YOLO算法，采用多尺度特征提取、混合域注意力与自适应特征融合. 此外，张徐等^[12]通过改进YOLOv7网络，引入余弦注意力机制与正则化策略. 虽然现有方法在复杂背景下的多尺度目标检测中有效，但应对高原地形时仍有不足.

当应对目标尺度多样性时，虽然已有研究采用特征融合策略，如王燕妮等^[13-16]分别对YOLO系列模型进行改进，但这些方法可能导致小目标特征遗失或者模型复杂度增加的问题.

基于上述问题，本研究提出高效的高原航空障碍物检测方法AO-YOLO，主要贡献如下.

（1）提出多尺度扩张注意力机制，将其融合到颈部网络中的C2f模块，有效扩大了颈部网络的感知范围，补充了现有模型在多尺度融合领域的短缺.

（2）把骨干网络中的Bottleneck模块替换为HGBlock结构，借助多层次的卷积结构充分捕捉高级层次的特征细节及上下文信息. 利用轻量级DWConv，解决现有模型运算繁重的问题.

（3）改进检测头，采用内存高效的注意力模块和轻量级卷积模块相结合的结构，提升模型捕捉长距离依赖关系的能力，实现模型的轻量化.

1. AO-YOLO模型

提出的AO-YOLO模型架构如图1所示. 该架构以YOLOv8n为基础，主要由增强的颈部网络、重构的主干网络及轻量级检测头三部分组成.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 AO-YOLO网络的结构图

Fig.1 Structure diagram of AO-YOLO network

在颈部网络中，引入多尺度扩张注意力机制（multi-scale dilated attention, MSDA），并将其集成到颈部网络的大、中、小目标检测层的C2f模块中，有效解决了高原山区目标尺度跨度大、分布不均匀的问题.

在主干网络中，结合层次分组模块（high performance block, HGBlock）与深度可分离卷积DWConv. 该设计不仅能够捕捉多样化的特征，还能在不同尺度和抽象层次上学习复杂模式，克服了目标与背景相似性高、辨识难度大的挑战.

针对高原地区移动设备的部署需求，设计轻量级检测头（light convolution head, SADetect），为高原山区移动设备的实时目标检测提供了可靠支持.

总体而言，AO-YOLO模型通过多尺度特征融合、分层特征提取及轻量化设计，有效应对了高原山区场景下目标尺度差异大、图像对比度低导致的识别精度下降问题，显著提升了模型的计算效率与实用性.

1.1. 多尺度扩张注意力增强的颈部网络

YOLOv8的颈部网络（Neck）作为连接骨干网络与检测头的关键模块，利用特征金字塔架构（PAN-FPN）整合多尺度特征图，以提高目标检测的鲁棒性. 传统方法在上采样过程中容易引入特征模糊化的问题，并因局部区域信息稀疏而导致上下文语义关联不足，这在高原山区低对比度目标和多尺度障碍物堆叠场景中尤为明显. 为了应对这些问题，提出基于多尺度扩张注意力（MSDA）^[17]增强的颈部网络架构，通过构建C2f_MS模块实现精细化特征融合与跨尺度上下文建模，如图2所示.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 C2f_MS模块的结构

Fig.2 Structure of C2f_MS module

MSDA机制的核心在于结合多尺度特征提取与注意力机制，MSDA模块主要由滑动窗口扩张注意力（SWDA）驱动. SWDA分支并行部署不同的扩张率，分别聚焦于局部细节（如岩石纹理）、中程结构（如山脊走向）和全局轮廓（如山体形态）. 这种设计通过动态调整扩张率来控制感受野范围，在稀疏采样策略下实现了局部细节与全局结构的协同建模. 特征图的通道分为多个不同的注意力头，每个头部内的中心位置作为查询补丁，采用不同扩张率（r = 1、2、3）执行自注意力操作，对应的感受野尺寸分别为3×3、5×5和7×7，如图3所示.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 扩张率控制感受野的示意图

Fig.3 Schematic of receptive field controlled by expansion rate

对于输入特征图位置(i, j)的查询向量$ {{\boldsymbol{q}}}_{i{j}} $，SWDA围绕滑动窗口中心，在扩张率为r的网格内筛选键$ {\boldsymbol{K}}_{r} $与值$ {\boldsymbol{V}}_{r} $，通过自注意力权重聚合上下文信息.

该过程形式化表示为

(1)$ \begin{split} {{\boldsymbol{x}}}_{ij}=& \mathrm{A}\mathrm{t}\mathrm{t}\mathrm{e}\mathrm{n}\mathrm{t}\mathrm{i}\mathrm{o}\mathrm{n}（{\boldsymbol{q}}_{ij},{\boldsymbol{K}}_{r},{\boldsymbol{V}}_{r}）=\\& \mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left(\frac{{\boldsymbol{q}}_{i{j}}{\boldsymbol{K}}_{r}^{{\mathrm{T}}}}{\sqrt{{{d}}_{\mathrm{k}}}}\right){\boldsymbol{V}}_{r};\;\mathrm{ }1\leqslant i\leqslant W,\;1\leqslant j\leqslant H.\end{split} $

式中：$ H $和$ {W} $为特征图的高度和宽度，$ {d}_{\mathrm{k}} $为键向量维度，$ {{\boldsymbol{x}}}_{ij} $为特征图位置(i, j)处的输出特征向量，$ {{\boldsymbol{q}}}_{ij} $为特征图位置的查询向量.

窗口坐标选取遵循式(2)，定义了SWDA中键值对的采样规则.

(2)$ \left\{(i^\prime,j^\prime)|i^\prime = i+p r{,}j^\prime=j+q r\right\}; -w/2\leqslant p,q\leqslant w/2. $

式中：(i, j)为原始特征图的位置坐标，(i', j')为采样后的坐标，$ p $、$ q $为整数偏移量，w为滑动窗口的基础尺寸参数.

特征图通道的每个注意力头通过独立的SWDA模块处理输入特征，得到该头部的输出，形式化表示为

(3)$ {\boldsymbol{h}}_{i}=\mathrm{S}\mathrm{W}\mathrm{D}\mathrm{A}({\boldsymbol{Q}}_{i},{\boldsymbol{K}}_{i},{\boldsymbol{V}}_{i},{r}_{i}); \;1\leqslant i\leqslant {a}. $

式中：$ {r}_{i} $为第$ i $个头部的扩张率，$ {\boldsymbol{Q}}_{{i}} $、$ {\boldsymbol{K}}_{{i}} $和$ {\boldsymbol{V}}_{{i}} $分别为输入第$ i $个头部的特征图查询矩阵、键矩阵和值矩阵，h_i为第$ i $个头部的输出.

将各注意力头处理后的特征图输出拼接后，通过线性层聚合，生成紧凑且具有高度区分性的特征表示，如下所示：

(4)$ \boldsymbol{X}=\mathrm{L}\mathrm{i}\mathrm{n}\mathrm{e}\mathrm{a}\mathrm{r}\left(\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}\right[{\boldsymbol{h}}_{1},{\boldsymbol{h}}_{2},\cdots ,{\boldsymbol{h}}_{a}\left]\right). $

式中：X为多尺度注意力头特征融合后的特征图.

为了进一步降低计算复杂度，C2f_MS模块引入深度可分离卷积（depthwise separable convolution, DWConv）. 该方法将标准卷积操作分解为深度卷积和逐点卷积2个阶段，在深度卷积阶段，每个输入通道独立应用单通道卷积核^[18]，这种设计增强了模型对空间特征的敏感度，避免了额外计算开销. 随后的逐点卷积阶段采用1×1卷积核，对深度卷积的多通道输出进行融合，灵活调整输出通道的数量，促进跨通道信息的高效交互，从而在降低计算复杂度的同时保持了特征表达能力.

假设输入特征图的尺寸为$ H\times W\times {C}_{\rm{in}} $，其中$ H $和$ W $分别为特征图的高度和宽度，$ {C}_{\rm{in}} $为输入通道数. 卷积核尺寸为 $ N\times N $，输出通道数为$ {C}_{\rm{out}} $. 对于普通卷积，计算量为$ H W {C}_{\rm{in}} {C}_{\rm{out}} {N}^{2} $，而DWConv的计算量分为两部分：深度卷积阶段的计算量为$ H W {C}_{\rm{in}} {N}^{2} $，逐点卷积阶段的计算量为$ H W {C}_{\rm{in}} {C}_{\rm{out}} $. DWConv的总计算量为$ H W {C}_{\rm{in}}({N}^{2}+ {C}_{\rm{out}}) $，相较于标准卷积，计算复杂度显著降低.

这种设计使得DWConv在保持特征提取能力的同时，大幅降低模型计算复杂度，适用于高原山区资源受限场景的移动设备部署. 此外，分阶段卷积结构增强了模型灵活性，能够有效地适应高原环境目标尺度变化大、背景复杂度高的特性.

1.2. 层次分组模块HGBlock重构的主干网络

YOLOv8模型的主干部分采用Darknet-53框架进行特征提取. Darknet-53的卷积结构主要关注局部信息，而高原山区障碍物与背景信息高度相关，这种局限性导致模型在复杂场景下的检测性能不足. 此外，Darknet-53较大的参数规模和计算量限制了其在移动设备上的应用.

为了解决上述问题，引入百度飞桨视觉团队研发的高性能轻量级网络结构PP - HGNetV2（high performance GPU network V2）. 网络结构如图4所示. 该网络主要包括以下几个关键组件. 1）Stem层作为预处理层，提取原始输入数据的初始特征. 2）核心组件HGBlock模块通过轻量级卷积对特征进行分组和编码，建立层次化特征关系，使网络能够同时从低级和高级层次特征中学习. 3）多个HGBlock模块间用LDSLayer下采样，减小特征图空间的维度. 4）分类前使用全局平均池化（GAP）层，将空间维度压缩为每个特征图的一个向量，提升网络对输入数据空间变换的鲁棒性. 5）通过全连接层（FC）将特征映射到目标类别.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 PP-HGNetV2结构图

Fig.4 Structure diagram of PP-HGNetV2

借鉴PP - HGNetV2层次化特征提取的思想，将YOLOv8主干网络的Bottleneck模块替换为HGBlock模块，降低模型的计算复杂度与参数量.如图5所示，HGBlock集成1×1、3×3、5×5、7×7、9×9、11×11等轻量级卷积核，实现多尺度特征融合.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 HGBlock模块的结构图

Fig.5 Structure diagram of HGBlock module

为了进一步提高模型效率，将主干网络中的部分标准卷积块（Conv）替换为深度可分离卷积（DWConv）^[19]. DWConv通过分解卷积操作，在保持特征表达能力的同时，显著减少了计算量.

重构后的骨干网络结构如图6所示. 通过HGBlock和DWConv的协同作用，在高原山区环境中实现了以下优势. 1）多层次特征表达能力. HGBlock的多层度卷积设计能够有效捕捉不同尺度的特征. 低级卷积核（如3×3）提取局部细节，而大尺寸卷积核（如11×11）增强全局上下文感知，这种层次化特征融合机制使得网络能够同时利用低级和高级特征，显著提升了对小目标（如树木、碎石）的检测精度. 在高原环境中，这一设计有效缓解了目标与背景对比度低（如积雪覆盖的岩石与云层）的检测难题. 2）复杂背景下的鲁棒性. 多尺度卷积核的协同作用增强了模型对全局上下文信息的捕捉能力，克服了飞行障碍物与背景高度相似（如冰川残留物与雪地）的识别挑战. 3）计算效率的优化. DWConv的引入使模型在保持检测精度的同时，显著降低了计算复杂度，这对高原山区资源受限的移动设备部署至关重要，确保了实时目标检测的需求.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 重构后的骨干网络结构

Fig.6 Refactored backbone network structure

1.3. 轻量级检测头SADetect

YOLOv8模型检测头对捕捉图像中的长距离依赖关系能力有限，导致模型对山体、树木障碍物相对空间关系捕捉不足，影响检测精度. 为了提升模型对不同类型障碍物长距离依赖关系的特征提取能力，借鉴HyCTAS 框架^[20]的优势，结合内存高效的注意力模块和轻量级卷积模块，构建高效的自注意力模块，将其作为轻量级检测头SADetect来替换YOLOv8模型中原有的普通检测头.

如图7所示，在自注意力模块中使用1×1卷积来降低和增加维度，使多头自注意力(multi-head self-attention, MHSA)模块成为通道数少于输入和输出的瓶颈结构，很大程度地减少了自注意力层所需的内存使用，在捕获特征间长距离依赖关系的同时，添加额外的1×1卷积模块支路，以保留未压缩的残差. 对于输入向量$ {\boldsymbol{M}} = [m_1, m_2, \cdots , m_n]$，多头自注意力模块的计算公式如下：

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 SADetect的结构

Fig.7 Structure of SADetect

(5)$ \begin{split} {{\boldsymbol{q}}}_{i}^{h}=& {\boldsymbol{W}}_{{\boldsymbol{q}}}^{h}{\boldsymbol{m}}_{{i}},{{\boldsymbol{k}}}_{i}^{h}={\boldsymbol{W}}_{{\boldsymbol{k}}}^{h}{\boldsymbol{m}}_{{i}},\;{{\boldsymbol{v}}}_{i}^{h}={\boldsymbol{W}}_{{\boldsymbol{v}}}^{h}{\boldsymbol{m}}_{{i}};\\& 1\leqslant {i}\leqslant {n}, 1\leqslant {h}\leqslant {a}. \end{split}$

(6)$ {\bf{head}}_{h}=\sum _{i=1}^{n}{\rm{softmax}}\left(\frac{{{\boldsymbol{q}}}_{i}^{h}\cdot {{\boldsymbol{k}}}_{i}^{h}}{\sqrt{{d}_{{\mathrm{k}}}}}\right){{\boldsymbol{v}}}_{i}^{h}. $

式中：$ {\boldsymbol{W}}_{{\boldsymbol{q}}} $、$ {\boldsymbol{W}}_{{\boldsymbol{k}}} $、$ {\mathbf{W}}_{\boldsymbol{v}} $为可训练的权重矩阵，head_h为获得MHSA模块的注意力操作的第h个头部输出. 在多个注意力头中，对每个输入向量$ {\boldsymbol{m}}_{{i}} $实施3个线性变换，生成每个头相应的查询、键和值，随后每个头部实施自注意力操作，获得注意力头输出$ {\bf{head}}_{h} $. 将所有输出合并后进行线性转换，得到最后的输出：

(7)${\rm{MultiHead}}\left({\boldsymbol{m}}_{i}\right)= {\boldsymbol{W}}_{\boldsymbol{O}}[{\bf{head}}_{1},{\bf{head}}_{2},\cdots ,{\bf{head}}_{a}]. $

式中：$ {\boldsymbol{W}}_{\boldsymbol{O}} $为用于将拼接结果映射到输出维度的线性变换矩阵.

在轻量级卷积网络模块中，执行降采样过程，通过0.5倍的降频率和3×3的卷积核操作，降低空间分辨率，减少计算量. 通过2倍的增频率进行上采样以恢复空间分辨率，利用并行的1×1卷积核，保留高分辨率的细节信息. 采用BN批量归一化层进行特征的规范化处理，通过加法操作，将上采样后的输出与采样前的输入进行融合，实现跳跃连接.

SADetect检测头通过内存高效的注意力模块来提升模型对捕获长距离依赖关系的能力，在保证计算开销减少的基础上，轻量级卷积保留了高分辨率的信息内容. 结合注意力模块与轻量级卷积，形成能够高效提取特征、保持较低计算成本的较优网络结构，使模型更适用于实时目标检测任务.

2. 实验结果与分析

2.1. 实验环境与参数配置

实验设备配置包含一张NVIDIA GeForce RT X 4060显卡. 软件环境由Windows 11操作系统、Python 3.9、PyTorch 1.12.1及CUDA 12.1组成. 如表1所示为该深度学习模型的各项参数配置.

表 1 训练参数的设置

Tab.1 Setting of training parameter

参数	数值
图像尺寸	640×640
批大小	8
最大训练轮数	300
工作进程数	4
优化器	SGD（随机梯度下降）
初始学习率	0.01
关闭马赛克增强的轮数	10

新窗口打开| 下载CSV

2.2. 实验数据集

针对高原山区（以西藏地形为例）通用航空飞行器起降及飞行过程中的主要障碍物，使用西藏民族大学和厦门大学联合构建的飞行障碍物数据集（flying obstacles dataset, FOD）. FOD数据集包含830张图像，覆盖西藏高原山区的典型地貌与气候条件. 因图像总数有限，模型易出现过度拟合和偏差. 对FOD数据集中的图像进行随机变换、运动模糊和中值滤波，将数据集规模扩展至5 140张图像.

利用LabelImg工具标注图像中的障碍物，标注物体主要分为山体（mountain）与树木（tree）两类，按3 855、321、964来划分训练集、验证集及测试集.

实验分别利用公共遥感数据集VisDrone2019和NWPU VHR-10. VisDrone2019数据集^[21]包含8 629张由无人机摄像头捕获的图像，这些图像被划分为包含6 471张样本的训练集、含有548张样本的验证集以及含有1 610张样本的测试集. 数据集共分为行人、人、汽车、面包车、公共汽车、卡车、摩托、自行车、遮阳三轮车和三轮车10类. 该数据集包含复杂背景和多尺度目标，能够有效测试模型在高原环境下对类似挑战（如小目标检测和低对比度场景）的适应能力. NWPU VHR-10数据集^[22]是西北工业大学（NWPU）创建的高分辨率遥感图像，共800张，目标类别涵盖了飞机、舰船、油罐、棒球场、网球场、篮球场、田径场、港口、桥梁和汽车10个类别. 该数据集呈现多样化的物体类别和复杂背景，可以有效评估模型在不同场景下对障碍物的检测能力. 对初始图片采用马赛克数据增强方法，在不改变尺寸的前提下，将数据集扩展至6 400张，其中训练集、验证集、测试集分别为4 800张、400张和1 200张.

2.3. 评价指标

选取精确度P、召回率R和平均精确度mAP作为评估模型稳定性的关键指标，计算公式如下:

(8)$ {P}=\frac{\mathrm{T}\mathrm{P}}{\mathrm{T}\mathrm{P}+\mathrm{F}\mathrm{P}}, $

(9)$ {R}=\frac{\mathrm{T}\mathrm{P}}{\mathrm{T}\mathrm{P}+\mathrm{F}\mathrm{N}}, $

(10)$ \text{AP}={\int }_{0}^{1}P\left(R\right)\text{d}R, $

(11)$ \text{mAP}=N^{-1}{{\sum }_{{i}=1}^{{N}}\text{A}{\text{P}}_{{i}}}. $

式中：TP为模型正确识别的目标数量，FP为模型错误辨识的目标数量，FN为模型的误判和漏掉数量. 实验选用mAP@0.5和mAP@0.5:0.95作为性能参考，其中mAP@0.5为IoU阈值为0.5时的平均精度均值，mAP@0.5:0.95为IoU为50%~95%时的平均精度均值. 衡量模型轻量化与性能的关键在于参数量N_p和计算量FLOPs. 模型的总参数量涵盖了权重和偏置的所有参数. 计算量反映了模型在前向传播过程中所需执行的浮点运算次数，通常用每秒浮点运算次数作为衡量标准^[23].

2.4. 对比实验

为了证明AO-YOLO算法的卓越性能，挑选目前流行的目标检测算法Faster-RCNN、RetinaNet^[24]、Cascade-RCNN^[25]、YOLOv3-tiny、YOLOv5n、YOLOv5s、YOLOv6n^[26]、YOLOv8n及改进算法cosSTR-YOLOv7、YOLOv8-NDTiny，在FOD数据集上进行对比测试. 所有实验均在一致的实验环境下开展，结果在表2中呈现.

表 2 在FOD数据集上进行的模型对比实验

Tab.2 Model comparison experiment conducted on FOD dataset

模型	mAP@0.5/ %	mAP@0.5:0.95/ %	N_p/ 10⁶	FLOPs/ 10⁹
Faster-RCNN	73.8	40.7	41.2	206.7
RetinaNet	70.7	38.1	19.8	93.7
Cascade-RCNN	71.4	39.2	—	—
YOLOv3-tiny	69.8	37.9	12.1	19.1
YOLOv5n	72.1	39.8	1.8	4.3
YOLOv5s	73.8	41.3	7.0	15.8
YOLOv6n	72.3	40.9	4.2	11.9
YOLOv8n	72.9	41.8	3.0	8.1
cosSTR-YOLOv7^[12]	75.1	43.5	52.9	263.5
YOLOv8-NDTiny ^[13]	74.8	42.3	2.3	11.7
AO-YOLO	75.6	43.8	2.4	6.1

新窗口打开| 下载CSV

从表2的对比实验数据可知，与其他主流的目标检测算法和改进算法相比，AO-YOLO算法在检测性能上更出色，计算量更少.

mAP@0.5和mAP@0.5:0.95分别达到75.6%和43.8%. 在mAP@0.5上，本文方法相较于Faster-RCNN提升了1.8%，RetinaNet提升了4.9%，Cascade-RCNN提升了4.2%，YOLOv3-tiny提升了5.8%，YOLOv5n提升了3.5%，YOLOv5s提升了1.8%，YOLOv6n提升了3.3%，YOLOv8n提升了2.7%，cosSTR-YOLOv7提升了0.5%，YOLOv8-NDTiny提升了0.8%. 在更严格的mAP@0.5:0.95指标上，本文方法的表现更优. 这表明它能够更精确地辨识出更多的正确边界框，维持高准确度.

N_p和 FLOPs分别降低至2.4×10⁶和6.1×10⁹，与其他模型相比，参数量平均降低了13.6×10⁶，计算量平均降低了64.4×10⁹，性能指标更优. 对于基线模型YOLOv8n，计算量降低了24.7%；对于改进模型YOLOv8-NDTiny，计算量降低了47.9%. 这表明该方法在保证高性能的同时，能够有效地控制模型的复杂度和计算成本.

为了展示模型在mAP@0.5上的提升，对比了AO-YOLO模型和YOLOv8n模型的P-R曲线，如图8、9所示. 当召回率小于0.4时，精度下降更平缓. AO-YOLO模型在较低的召回率下能够获得较高的精确度，模型在提高召回率的同时，能够保持较高的精确度. 特别是在山体识别方面，精度提高了2.0%，树木识别精度提升了3.2%.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 YOLOv8n的精确度-召回率曲线

Fig.8 Precision-recall curve of YOLOv8n

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 AO-YOLO的精确度-召回率曲线

Fig.9 Precision-recall curve of AO-YOLO

2.5. 消融实验

为了评估AO-YOLO改进组件的性能，在FOD数据集上开展消融实验. 所有测试均在相同的实验环境下完成，结果如表3所示.

表 3 AO-YOLO模型的消融实验

Tab.3 Ablation experiment of AO-YOLO model

基线模型	C2f_MS	HGBlock	SADetect	mAP@0.5/%	mAP@0.5:0.95/%	N_p/10⁶	FLOPs/10⁹
√	−	−	−	72.9	41.8	3.0	8.1
√	√	−	−	75.3	42.5	3.3	8.8
√	−	√	−	73.1	41.9	2.5	6.6
√	−	−	√	74.2	42.3	2.6	7.0
√	√	√	−	75.7	43.7	2.6	7.2
√	√	√	√	75.6	43.8	2.4	6.1

新窗口打开| 下载CSV

相较于YOLOv8n，YOLOv8n+C2f_MS在mAP@0.5和mAP@0.5:0.95上分别提升了2.4%和0.7%，参数量和浮点运算量分别增加了0.3×10⁶和0.7×10⁹. 通过扩展颈部网络的感知范围和强化多尺度特征融合能力，提高了检测精度.

与YOLOv8n相比，YOLOv8n+C2f_MS+HGBlock的参数量减少了0.4×10⁶，计算量减少了0.9×10⁹，mAP@0.5和mAP@0.5:0.95分别提升了2.8%和1.9%. 通过轻量级卷积整合局部和全局上下文特征，可以有效地降低计算复杂度，促进通道间信息交互.

相较于YOLOv8n，YOLOv8n+C2f_MS+HGBl ock+SADetect的mAP@0.5:0.95提升了2.0%，参数量和计算复杂度分别下降了0.6×10⁶和2×10⁹. 这表明利用内存高效注意力模块和轻量级卷积模块相结合的策略，在略微提升精度的同时，进一步推进了模型的简化.

2.6. 注意力机制的对比

为了验证MSDA模块对检测精度的提升效果，将基线YOLOv8n模型与其他常见注意力模块进行整合，在相同的参数设置下进行对比实验. 在300轮的训练过程中，各模型的平均精度均值对比结果如图10所示. 其中，N为迭代次数. YOLOv8n模型在整合MSDA模块后，在整个训练周期内基本上维持了最高的检测精度. 从训练的第25个周期开始，该模块与ACmix^[27]、SimAM^[28]模块相比，已呈现出显著的性能差异. 尽管在前200个周期内与EAT模块^[29]的性能相当，但在最后100个周期的训练中，MSDA模块显著地展示了自身性能优势.

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 不同注意力机制的对比

Fig.10 Comparison of different attention mechanism

2.7. 公共数据集的对比试验

分别在VisDrone2019和NWPU VHR-10数据集上对AO-YOLO算法的性能进行验证，选取mAP@0.5和FLOPs作为评价指标，对比实验结果如表4、5所示.

表 4 在VisDrone2019上的实验结果

Tab.4 Experimental result on VisDrone2019

模型	mAP@0.5/%	FLOPs/10⁹
Faster-RCNN	33.1	206.7
RetinaNet	26.5	93.7
YOLOv3-tiny	31.9	19.1
YOLOv5s	32.4	15.8
YOLOv6n	30.2	11.9
YOLOv8n	33.5	8.1
cosSTR-YOLOv7^[12]	34.7	263.5
YOLOv8-NDTiny^[13]	34.3	11.7
AO-YOLO	35.0	6.1

新窗口打开| 下载CSV

表 5 在NWPU VHR-10上的实验结果

Tab.5 Experimental result on NWPU VHR-10

模型	mAP@0.5/%	FLOPs/10⁹
Faster-RCNN	85.9	206.7
RetinaNet	83.6	93.7
YOLOv3-tiny	86.5	19.1
YOLOv5s	85.0	15.8
YOLOv6n	85.2	11.9
YOLOv8n	85.4	8.1
AO-YOLO	86.6	6.1

新窗口打开| 下载CSV

从表4可以看出，在YOLO系列模型中，YOLOv6n的平均精度最低，仅为30.2%. YOLOv3-tiny的平均精度达到31.9%，但计算量最大. AO-YOLO的平均精度分别比YOLOv5s和YOLOv8n高2.6%和1.5%，计算量低61.4%和24.7%. 与cosSTR-YOLOv7和YOLOv8-NDTiny相比，AO-YOLO的平均精度高0.3%和0.7%，计算量低97.7%和47.9%. 总体而言，本文算法的表现更出色.

从表5可以看出，AO-YOLO算法相较于Faster-RCNN、RetinaNet、YOLOv3-tiny、YOLOv5s、YOLOv6n、YOLOv8n在mAP@0.5上分别提升了0.7%、3.0%、0.1%、1.6%、1.4%、1.2%. YOLOv3-tiny实验版本具有较大的参数量，在牺牲大量计算资源的同时保证较高的精度，对YOLOv3-tiny在精度上的提升相对有限. 对于基线模型YOLOv8n，在平均精度提升的同时，计算量下降了24.7%.

2.8. 实验结果的可视化分析

为了对比AO-YOLO模型的测试效果，随机从测试集中抽取不同场景、不同光照条件的图像进行验证. 如图11所示，从左至右依次为Faster-RCNN模型、YOLOv8n模型和AO-YOLO模型进行检测后所得的结果. 从场景1可见，AO-YOLO模型对山体检测的精度更高. 场景2由于光线不充足，Faster-RCNN模型和YOLOv8n模型对特征不明显的山体存在漏检的情况. 场景3相较于Faster-RCNN模型，AO-YOLO模型对山体的检测精度更高，虽然对树木的检测精度较低，但Faster-RCNN模型存在漏检的情况，YOLOv8n模型存在误检的情况. 场景4选取了含有多个建筑物的复杂背景，且目标物体与背景的对比度较低，AO-YOLO模型不仅以更高的精度检测出待测物体，而且成功识别了被遮挡的树木. 场景5中，AO-YOLO模型成功检测出所有的小尺寸目标，精确度普遍较高.

图 11

新窗口打开| 下载原图ZIP| 生成PPT

图 11 检测结果的可视化对比

Fig.11 Visual comparison of detection result

3. 结　语

为了提高高原航空障碍物检测精度和实现模型轻量化，提出添加多尺度扩张注意力、层次图模块和轻量级检测头模块的轻量级模型AO-YOLO. 实验结果显示，使用FOD训练的AO-YOLO模型在mAP@0.5指标上达到75.6%的精度，模型参数量仅为2.4×10⁶. 与原始模型YOLOv8n相比，在mAP@0.5及mAP@0.5:0.95 2个关键指标上分别提升了2.7%和2.0%，模型的参数量降低了20%，计算量降低了24.7%. 下一步研究将扩充实验数据集，收集高原山区在不同场景下的图像数据，以增强模型在各种场景中的适应性和泛化能力.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego: IEEE, 2005: 886–893.