藏区高原典型环境地形目标的轻量化检测模型
Lightweight detection model for typical environmental terrain target in Tibetan Plateau
通讯作者:
收稿日期: 2025-01-30
| 基金资助: |
|
Received: 2025-01-30
| Fund supported: | 西藏自治区重点研发计划资助项目(XZ202401ZY0102,XZ202403ZY0019,XZ202402ZY0017);厦门市自然科学基金资助项目(3502Z20227179);教育部人文社会科学规划基金资助项目(23XZJAZH001);西藏自治区自然科学基金重点资助项目(XZ202401ZR0055);福建省自然科学基金资助项目(2022J01058);中国航空科学基金资助项目(2023Z032068001);水声对抗技术重点实验室基金资助项目(JCKY2024207CH05);西藏民族大学基金资助项目(Y2024050). |
作者简介 About authors
雒伟群(1969—),男,教授,硕导,从事机器学习、大数据与知识工程的研究.orcid.org/0009-0007-7608-3358.E-mail:
为了解决通用航空飞行器在高原山区应用场景中,所面临的传统方法障碍物识别精度低和计算量过大等问题,提出障碍物检测模型AO-YOLO. 通过优化现有的YOLOv8n模型,引入多尺度扩张注意力机制,增强Neck网络对不同尺度特征的融合能力. 采用HGBlock结构替换原有的Bottleneck模块,通过轻量级卷积建立特征层次化关系,使网络能够同时提取局部与全局上下文信息. 结合内存高效的注意力模块与轻量级卷积模块,设计新的检测头,降低模型参数量与计算成本. 实验结果显示,在构建的高原山区障碍物数据集(FOD)上,相较于YOLOv8n,AO-YOLO的mAP@0.5指标提升了2.7%,mAP@0.5:0.95指标提升了2.0%,整体计算量减少了24.7%. 该模型在高原航空障碍物检测任务中具有精度较高和轻量化的特性.
关键词:
An obstacle detection model AO-YOLO was proposed in order to solve the problems of low accuracy and excessive calculation of obstacle recognition in traditional methods faced by general aviation aircraft in plateau mountain application scenarios. A multi-scale expanded attention mechanism was introduced by optimizing the existing YOLOv8n model in order to enhance the ability of Neck network to fuse features of different scales. HGBlock structure was used to replace the original Bottleneck module, and lightweight convolution was used to establish the feature hierarchical relationship, so that the network can extract local and global context information at the same time. The memory-efficient attention module and lightweight convolution module were combined to design a new detection head in in order to reduce the number of model parameters and computational cost. The experimental results showed that the mAP@0.5 index of AO-YOLO increased by 2.7% and the mAP@0.5:0.95 index increased by 2.0% on the constructed plateau mountain obstacle dataset (FOD) compared with YOLOv8n, and the overall calculation amount reduced by 24.7%. The proposed model has the characteristics of high accuracy and lightweight in the highland aviation obstacle detection task.
Keywords:
本文引用格式
雒伟群, 陆敬蔚, 吴佳缔, 梁钰迎, 申传鹏, 朱睿.
LUO Weiqun, LU Jingwei, WU Jiadi, LIANG Yuying, SHEN Chuanpeng, ZHU Rui.
通用航空在高原山区应用中面临复杂地形与障碍物识别的双重挑战. 当前障碍物检测研究多集中于平原或城市环境,难以适应高原特殊地貌,开展针对高原山区(以西藏为例)通用航空飞行器在起降及飞行过程中的地形感知与障碍物检测研究,对确保高原飞行安全至关重要.
基于上述问题,本研究提出高效的高原航空障碍物检测方法AO-YOLO,主要贡献如下.
(1)提出多尺度扩张注意力机制,将其融合到颈部网络中的C2f模块,有效扩大了颈部网络的感知范围,补充了现有模型在多尺度融合领域的短缺.
(2)把骨干网络中的Bottleneck模块替换为HGBlock结构,借助多层次的卷积结构充分捕捉高级层次的特征细节及上下文信息. 利用轻量级DWConv,解决现有模型运算繁重的问题.
(3)改进检测头,采用内存高效的注意力模块和轻量级卷积模块相结合的结构,提升模型捕捉长距离依赖关系的能力,实现模型的轻量化.
1. AO-YOLO模型
提出的AO-YOLO模型架构如图1所示. 该架构以YOLOv8n为基础,主要由增强的颈部网络、重构的主干网络及轻量级检测头三部分组成.
图 1
在颈部网络中,引入多尺度扩张注意力机制(multi-scale dilated attention, MSDA),并将其集成到颈部网络的大、中、小目标检测层的C2f模块中,有效解决了高原山区目标尺度跨度大、分布不均匀的问题.
在主干网络中,结合层次分组模块(high performance block, HGBlock)与深度可分离卷积DWConv. 该设计不仅能够捕捉多样化的特征,还能在不同尺度和抽象层次上学习复杂模式,克服了目标与背景相似性高、辨识难度大的挑战.
针对高原地区移动设备的部署需求,设计轻量级检测头(light convolution head, SADetect),为高原山区移动设备的实时目标检测提供了可靠支持.
总体而言,AO-YOLO模型通过多尺度特征融合、分层特征提取及轻量化设计,有效应对了高原山区场景下目标尺度差异大、图像对比度低导致的识别精度下降问题,显著提升了模型的计算效率与实用性.
1.1. 多尺度扩张注意力增强的颈部网络
图 2
MSDA机制的核心在于结合多尺度特征提取与注意力机制,MSDA模块主要由滑动窗口扩张注意力(SWDA)驱动. SWDA分支并行部署不同的扩张率,分别聚焦于局部细节(如岩石纹理)、中程结构(如山脊走向)和全局轮廓(如山体形态). 这种设计通过动态调整扩张率来控制感受野范围,在稀疏采样策略下实现了局部细节与全局结构的协同建模. 特征图的通道分为多个不同的注意力头,每个头部内的中心位置作为查询补丁,采用不同扩张率(r = 1、2、3)执行自注意力操作,对应的感受野尺寸分别为3×3、5×5和7×7,如图3所示.
图 3
图 3 扩张率控制感受野的示意图
Fig.3 Schematic of receptive field controlled by expansion rate
对于输入特征图位置(i, j)的查询向量
该过程形式化表示为
式中:
窗口坐标选取遵循式(2),定义了SWDA中键值对的采样规则.
式中:(i, j)为原始特征图的位置坐标,(i', j')为采样后的坐标,
特征图通道的每个注意力头通过独立的SWDA模块处理输入特征,得到该头部的输出,形式化表示为
式中:
将各注意力头处理后的特征图输出拼接后,通过线性层聚合,生成紧凑且具有高度区分性的特征表示,如下所示:
式中:X为多尺度注意力头特征融合后的特征图.
为了进一步降低计算复杂度,C2f_MS模块引入深度可分离卷积(depthwise separable convolution, DWConv). 该方法将标准卷积操作分解为深度卷积和逐点卷积2个阶段,在深度卷积阶段,每个输入通道独立应用单通道卷积核[18],这种设计增强了模型对空间特征的敏感度,避免了额外计算开销. 随后的逐点卷积阶段采用1×1卷积核,对深度卷积的多通道输出进行融合,灵活调整输出通道的数量,促进跨通道信息的高效交互,从而在降低计算复杂度的同时保持了特征表达能力.
假设输入特征图的尺寸为
这种设计使得DWConv在保持特征提取能力的同时,大幅降低模型计算复杂度,适用于高原山区资源受限场景的移动设备部署. 此外,分阶段卷积结构增强了模型灵活性,能够有效地适应高原环境目标尺度变化大、背景复杂度高的特性.
1.2. 层次分组模块HGBlock重构的主干网络
YOLOv8模型的主干部分采用Darknet-53框架进行特征提取. Darknet-53的卷积结构主要关注局部信息,而高原山区障碍物与背景信息高度相关,这种局限性导致模型在复杂场景下的检测性能不足. 此外,Darknet-53较大的参数规模和计算量限制了其在移动设备上的应用.
为了解决上述问题,引入百度飞桨视觉团队研发的高性能轻量级网络结构PP - HGNetV2(high performance GPU network V2). 网络结构如图4所示. 该网络主要包括以下几个关键组件. 1)Stem层作为预处理层,提取原始输入数据的初始特征. 2)核心组件HGBlock模块通过轻量级卷积对特征进行分组和编码,建立层次化特征关系,使网络能够同时从低级和高级层次特征中学习. 3)多个HGBlock模块间用LDSLayer下采样,减小特征图空间的维度. 4)分类前使用全局平均池化(GAP)层,将空间维度压缩为每个特征图的一个向量,提升网络对输入数据空间变换的鲁棒性. 5)通过全连接层(FC)将特征映射到目标类别.
图 4
借鉴PP - HGNetV2层次化特征提取的思想,将YOLOv8主干网络的Bottleneck模块替换为HGBlock模块,降低模型的计算复杂度与参数量.如图5所示,HGBlock集成1×1、3×3、5×5、7×7、9×9、11×11等轻量级卷积核,实现多尺度特征融合.
图 5
为了进一步提高模型效率,将主干网络中的部分标准卷积块(Conv)替换为深度可分离卷积(DWConv)[19]. DWConv通过分解卷积操作,在保持特征表达能力的同时,显著减少了计算量.
重构后的骨干网络结构如图6所示. 通过HGBlock和DWConv的协同作用,在高原山区环境中实现了以下优势. 1)多层次特征表达能力. HGBlock的多层度卷积设计能够有效捕捉不同尺度的特征. 低级卷积核(如3×3)提取局部细节,而大尺寸卷积核(如11×11)增强全局上下文感知,这种层次化特征融合机制使得网络能够同时利用低级和高级特征,显著提升了对小目标(如树木、碎石)的检测精度. 在高原环境中,这一设计有效缓解了目标与背景对比度低(如积雪覆盖的岩石与云层)的检测难题. 2)复杂背景下的鲁棒性. 多尺度卷积核的协同作用增强了模型对全局上下文信息的捕捉能力,克服了飞行障碍物与背景高度相似(如冰川残留物与雪地)的识别挑战. 3)计算效率的优化. DWConv的引入使模型在保持检测精度的同时,显著降低了计算复杂度,这对高原山区资源受限的移动设备部署至关重要,确保了实时目标检测的需求.
图 6
1.3. 轻量级检测头SADetect
YOLOv8模型检测头对捕捉图像中的长距离依赖关系能力有限,导致模型对山体、树木障碍物相对空间关系捕捉不足,影响检测精度. 为了提升模型对不同类型障碍物长距离依赖关系的特征提取能力,借鉴HyCTAS 框架[20]的优势,结合内存高效的注意力模块和轻量级卷积模块,构建高效的自注意力模块,将其作为轻量级检测头SADetect来替换YOLOv8模型中原有的普通检测头.
如图7所示,在自注意力模块中使用1×1卷积来降低和增加维度,使多头自注意力(multi-head self-attention, MHSA)模块成为通道数少于输入和输出的瓶颈结构,很大程度地减少了自注意力层所需的内存使用,在捕获特征间长距离依赖关系的同时,添加额外的1×1卷积模块支路,以保留未压缩的残差. 对于输入向量
图 7
式中:
式中:
在轻量级卷积网络模块中,执行降采样过程,通过0.5倍的降频率和3×3的卷积核操作,降低空间分辨率,减少计算量. 通过2倍的增频率进行上采样以恢复空间分辨率,利用并行的1×1卷积核,保留高分辨率的细节信息. 采用BN批量归一化层进行特征的规范化处理,通过加法操作,将上采样后的输出与采样前的输入进行融合,实现跳跃连接.
SADetect检测头通过内存高效的注意力模块来提升模型对捕获长距离依赖关系的能力,在保证计算开销减少的基础上,轻量级卷积保留了高分辨率的信息内容. 结合注意力模块与轻量级卷积,形成能够高效提取特征、保持较低计算成本的较优网络结构,使模型更适用于实时目标检测任务.
2. 实验结果与分析
2.1. 实验环境与参数配置
实验设备配置包含一张NVIDIA GeForce RT X
表 1 训练参数的设置
Tab.1
| 参数 | 数值 |
| 图像尺寸 | 640×640 |
| 批大小 | 8 |
| 最大训练轮数 | 300 |
| 工作进程数 | 4 |
| 优化器 | SGD(随机梯度下降) |
| 初始学习率 | 0.01 |
| 关闭马赛克增强的轮数 | 10 |
2.2. 实验数据集
针对高原山区(以西藏地形为例)通用航空飞行器起降及飞行过程中的主要障碍物,使用西藏民族大学和厦门大学联合构建的飞行障碍物数据集(flying obstacles dataset, FOD). FOD数据集包含830张图像,覆盖西藏高原山区的典型地貌与气候条件. 因图像总数有限,模型易出现过度拟合和偏差. 对FOD数据集中的图像进行随机变换、运动模糊和中值滤波,将数据集规模扩展至5 140张图像.
利用LabelImg工具标注图像中的障碍物,标注物体主要分为山体(mountain)与树木(tree)两类,按3 855、321、964来划分训练集、验证集及测试集.
实验分别利用公共遥感数据集VisDrone2019和NWPU VHR-10. VisDrone2019数据集[21]包含8 629张由无人机摄像头捕获的图像,这些图像被划分为包含6 471张样本的训练集、含有548张样本的验证集以及含有1 610张样本的测试集. 数据集共分为行人、人、汽车、面包车、公共汽车、卡车、摩托、自行车、遮阳三轮车和三轮车10类. 该数据集包含复杂背景和多尺度目标,能够有效测试模型在高原环境下对类似挑战(如小目标检测和低对比度场景)的适应能力. NWPU VHR-10数据集[22]是西北工业大学(NWPU)创建的高分辨率遥感图像,共800张,目标类别涵盖了飞机、舰船、油罐、棒球场、网球场、篮球场、田径场、港口、桥梁和汽车10个类别. 该数据集呈现多样化的物体类别和复杂背景,可以有效评估模型在不同场景下对障碍物的检测能力. 对初始图片采用马赛克数据增强方法,在不改变尺寸的前提下,将数据集扩展至6 400张,其中训练集、验证集、测试集分别为4 800张、400张和1 200张.
2.3. 评价指标
选取精确度P、召回率R和平均精确度mAP作为评估模型稳定性的关键指标,计算公式如下:
式中:TP为模型正确识别的目标数量,FP为模型错误辨识的目标数量,FN为模型的误判和漏掉数量. 实验选用mAP@0.5和mAP@0.5:0.95作为性能参考,其中mAP@0.5为IoU阈值为0.5时的平均精度均值,mAP@0.5:0.95为IoU为50%~95%时的平均精度均值. 衡量模型轻量化与性能的关键在于参数量Np和计算量FLOPs. 模型的总参数量涵盖了权重和偏置的所有参数. 计算量反映了模型在前向传播过程中所需执行的浮点运算次数,通常用每秒浮点运算次数作为衡量标准[23].
2.4. 对比实验
表 2 在FOD数据集上进行的模型对比实验
Tab.2
| 模型 | mAP@0.5/ % | mAP@0.5:0.95/ % | Np/ 106 | FLOPs/ 109 |
| Faster-RCNN | 73.8 | 40.7 | 41.2 | 206.7 |
| RetinaNet | 70.7 | 38.1 | 19.8 | 93.7 |
| Cascade-RCNN | 71.4 | 39.2 | — | — |
| YOLOv3-tiny | 69.8 | 37.9 | 12.1 | 19.1 |
| YOLOv5n | 72.1 | 39.8 | 1.8 | 4.3 |
| YOLOv5s | 73.8 | 41.3 | 7.0 | 15.8 |
| YOLOv6n | 72.3 | 40.9 | 4.2 | 11.9 |
| YOLOv8n | 72.9 | 41.8 | 3.0 | 8.1 |
| cosSTR-YOLOv7[12] | 75.1 | 43.5 | 52.9 | 263.5 |
| YOLOv8-NDTiny [13] | 74.8 | 42.3 | 2.3 | 11.7 |
| AO-YOLO | 75.6 | 43.8 | 2.4 | 6.1 |
从表2的对比实验数据可知,与其他主流的目标检测算法和改进算法相比,AO-YOLO算法在检测性能上更出色,计算量更少.
mAP@0.5和mAP@0.5:0.95分别达到75.6%和43.8%. 在mAP@0.5上,本文方法相较于Faster-RCNN提升了1.8%,RetinaNet提升了4.9%,Cascade-RCNN提升了4.2%,YOLOv3-tiny提升了5.8%,YOLOv5n提升了3.5%,YOLOv5s提升了1.8%,YOLOv6n提升了3.3%,YOLOv8n提升了2.7%,cosSTR-YOLOv7提升了0.5%,YOLOv8-NDTiny提升了0.8%. 在更严格的mAP@0.5:0.95指标上,本文方法的表现更优. 这表明它能够更精确地辨识出更多的正确边界框,维持高准确度.
Np和 FLOPs分别降低至2.4×106和6.1×109,与其他模型相比,参数量平均降低了13.6×106,计算量平均降低了64.4×109,性能指标更优. 对于基线模型YOLOv8n,计算量降低了24.7%;对于改进模型YOLOv8-NDTiny,计算量降低了47.9%. 这表明该方法在保证高性能的同时,能够有效地控制模型的复杂度和计算成本.
图 8
图 9
2.5. 消融实验
为了评估AO-YOLO改进组件的性能,在FOD数据集上开展消融实验. 所有测试均在相同的实验环境下完成,结果如表3所示.
表 3 AO-YOLO模型的消融实验
Tab.3
| 基线模型 | C2f_MS | HGBlock | SADetect | mAP@0.5/% | mAP@0.5:0.95/% | Np/106 | FLOPs/109 |
| √ | − | − | − | 72.9 | 41.8 | 3.0 | 8.1 |
| √ | √ | − | − | 75.3 | 42.5 | 3.3 | 8.8 |
| √ | − | √ | − | 73.1 | 41.9 | 2.5 | 6.6 |
| √ | − | − | √ | 74.2 | 42.3 | 2.6 | 7.0 |
| √ | √ | √ | − | 75.7 | 43.7 | 2.6 | 7.2 |
| √ | √ | √ | √ | 75.6 | 43.8 | 2.4 | 6.1 |
相较于YOLOv8n,YOLOv8n+C2f_MS在mAP@0.5和mAP@0.5:0.95上分别提升了2.4%和0.7%,参数量和浮点运算量分别增加了0.3×106和0.7×109. 通过扩展颈部网络的感知范围和强化多尺度特征融合能力,提高了检测精度.
与YOLOv8n相比,YOLOv8n+C2f_MS+HGBlock的参数量减少了0.4×106,计算量减少了0.9×109,mAP@0.5和mAP@0.5:0.95分别提升了2.8%和1.9%. 通过轻量级卷积整合局部和全局上下文特征,可以有效地降低计算复杂度,促进通道间信息交互.
相较于YOLOv8n,YOLOv8n+C2f_MS+HGBl ock+SADetect的mAP@0.5:0.95提升了2.0%,参数量和计算复杂度分别下降了0.6×106和2×109. 这表明利用内存高效注意力模块和轻量级卷积模块相结合的策略,在略微提升精度的同时,进一步推进了模型的简化.
2.6. 注意力机制的对比
图 10
2.7. 公共数据集的对比试验
表 4 在VisDrone2019上的实验结果
Tab.4
表 5 在NWPU VHR-10上的实验结果
Tab.5
| 模型 | mAP@0.5/% | FLOPs/109 |
| Faster-RCNN | 85.9 | 206.7 |
| RetinaNet | 83.6 | 93.7 |
| YOLOv3-tiny | 86.5 | 19.1 |
| YOLOv5s | 85.0 | 15.8 |
| YOLOv6n | 85.2 | 11.9 |
| YOLOv8n | 85.4 | 8.1 |
| AO-YOLO | 86.6 | 6.1 |
从表4可以看出,在YOLO系列模型中,YOLOv6n的平均精度最低,仅为30.2%. YOLOv3-tiny的平均精度达到31.9%,但计算量最大. AO-YOLO的平均精度分别比YOLOv5s和YOLOv8n高2.6%和1.5%,计算量低61.4%和24.7%. 与cosSTR-YOLOv7和YOLOv8-NDTiny相比,AO-YOLO的平均精度高0.3%和0.7%,计算量低97.7%和47.9%. 总体而言,本文算法的表现更出色.
从表5可以看出,AO-YOLO算法相较于Faster-RCNN、RetinaNet、YOLOv3-tiny、YOLOv5s、YOLOv6n、YOLOv8n在mAP@0.5上分别提升了0.7%、3.0%、0.1%、1.6%、1.4%、1.2%. YOLOv3-tiny实验版本具有较大的参数量,在牺牲大量计算资源的同时保证较高的精度,对YOLOv3-tiny在精度上的提升相对有限. 对于基线模型YOLOv8n,在平均精度提升的同时,计算量下降了24.7%.
2.8. 实验结果的可视化分析
为了对比AO-YOLO模型的测试效果,随机从测试集中抽取不同场景、不同光照条件的图像进行验证. 如图11所示,从左至右依次为Faster-RCNN模型、YOLOv8n模型和AO-YOLO模型进行检测后所得的结果. 从场景1可见,AO-YOLO模型对山体检测的精度更高. 场景2由于光线不充足,Faster-RCNN模型和YOLOv8n模型对特征不明显的山体存在漏检的情况. 场景3相较于Faster-RCNN模型,AO-YOLO模型对山体的检测精度更高,虽然对树木的检测精度较低,但Faster-RCNN模型存在漏检的情况,YOLOv8n模型存在误检的情况. 场景4选取了含有多个建筑物的复杂背景,且目标物体与背景的对比度较低,AO-YOLO模型不仅以更高的精度检测出待测物体,而且成功识别了被遮挡的树木. 场景5中,AO-YOLO模型成功检测出所有的小尺寸目标,精确度普遍较高.
图 11
3. 结 语
为了提高高原航空障碍物检测精度和实现模型轻量化,提出添加多尺度扩张注意力、层次图模块和轻量级检测头模块的轻量级模型AO-YOLO. 实验结果显示,使用FOD训练的AO-YOLO模型在mAP@0.5指标上达到75.6%的精度,模型参数量仅为2.4×106. 与原始模型YOLOv8n相比,在mAP@0.5及mAP@0.5:0.95 2个关键指标上分别提升了2.7%和2.0%,模型的参数量降低了20%,计算量降低了24.7%. 下一步研究将扩充实验数据集,收集高原山区在不同场景下的图像数据,以增强模型在各种场景中的适应性和泛化能力.
参考文献
Faster R-CNN: towards real-time object detection with region proposal networks
[J].DOI:10.1109/TPAMI.2016.2577031 [本文引用: 1]
改进YOLOv8的航拍小目标检测方法: CRP-YOLO
[J].
Improved YOLOv8 aerial small target detection method: CRP-YOLO
[J].
基于YOLOv5s的无人机密集小目标检测算法
[J].
UAV dense small target detection algorithm based on YOLOv5s
[J].
基于cosSTR-YOLOv7的多尺度遥感小目标检测
[J].
Multi-scale remote sensing small target detection based on cosSTR-YOLOv7
[J].
UAV-YOLOv8: a small-object-detection model based on improved YOLOv8 for UAV aerial photography scenarios
[J].
面向无人机航拍小目标检测的轻量级YOLOv8检测算法
[J].
Lightweight YOLOv8 detection algorithm for small object detection in UAV aerial photography
[J].
基于加强特征提取的道路病害检测算法
[J].
Road damage detection algorithm based on enhanced feature extraction
[J].
DilateFormer: multi-scale dilated transformer for visual recognition
[J].DOI:10.1109/TMM.2023.3243616 [本文引用: 1]
融合Swin Transformer的YOLOv5口罩检测算法
[J].
Mask detection algorithm based on YOLOv5 integrating Swin Transformer
[J].
结合轻量级特征提取网络的舰船目标检测算法
[J].
Ship target detection algorithm combined with lightweight feature extraction network
[J].
多层级特征融合的无人机航拍图像目标检测
[J].
Aerial image object detection of UAV based on multi-level feature fusion
[J].
多尺度特征融合的遥感图像目标检测方法
[J].
Object detection method with multi-scale feature fusion for remote sensing images
[J].
/
| 〈 |
|
〉 |

