浙江大学学报(工学版), 2025, 59(3): 535-545 doi: 10.3785/j.issn.1008-973X.2025.03.011

计算机技术

基于渐进特征融合及多尺度空洞注意力的遮挡鸟巢检测

尹向雷,, 屈少鹏, 解永芳, 苏妮

陕西理工大学 电气工程学院,陕西 汉中 723000

Occluded bird nest detection based on asymptotic feature fusion and multi-scale dilated attention

YIN Xianglei,, QU Shaopeng, XIE Yongfang, SU Ni

College of Electrical Engineering, Shaanxi University of Technology, Hanzhong 723000, China

收稿日期: 2024-03-7  

基金资助: 国家自然科学基金资助项目(62176146);陕西省教育厅重点科学研究计划资助项目(20JS018);陕西理工大学人才启动专项资助项目(SLGRCQD2114).

Received: 2024-03-7  

Fund supported: 国家自然科学基金资助项目(62176146);陕西省教育厅重点科学研究计划资助项目(20JS018);陕西理工大学人才启动专项资助项目(SLGRCQD2114).

作者简介 About authors

尹向雷(1977—),男,副教授,博士,从事目标检测与跟踪以及机器视觉在电力系统中应用的研究.orcid.org/0000-0001-9962-7986.E-mail:thunder@snut.edu.cn , E-mail:thunder@snut.edu.cn

摘要

为了提高被遮挡鸟巢目标的检测性能与准确性,减少鸟类筑巢对电力系统稳定运行造成的威胁以及运维成本,提出基于改进YOLOv5的输电线路鸟巢检测方法. 该方法使用渐进特征金字塔网络优化原始特征金字塔网络结构,有效避免了非相邻层次之间较大的语意差距,增强了非相邻层次间的融合效果. 使用多尺度空洞注意力机制,使模型能够有效地提取不同尺度的语义信息,提高模型对遮挡鸟巢目标的检测性能. 采用轻量级MobileNetV3网络作为骨干网络,进一步降低模型复杂度. 消融实验与定性实验结果表明,改进后算法的召回率、精确率与平均精度均值相较于原始算法分别提升了2.0个百分点、0.7个百分点与1.7个百分点,权重大小与计算量分别减少了74.7个百分点与53.5个百分点. 对于遮挡鸟巢目标均表现出良好的性能,验证了改进方法的有效性.

关键词: 输电线路 ; 遮挡目标 ; YOLOv5 ; 注意力机制 ; 渐进特征金字塔网络

Abstract

An improved YOLOv5 transmission line bird nest detection method was proposed, in order to improve the detection performance and accuracy of the occluded bird nest targets, as well as reduce the threat of bird nesting to the stable operation of the power system and the operation and maintenance cost. Firstly, the asymptotic feature pyramid network was used to optimize the original feature pyramid network structure, effectively avoiding the large semantic gap between non-adjacent layers, and enhancing the fusion effect between non-adjacent layers. Secondly, the multi-scale dilated attention mechanism was used to enable the model to effectively extract semantic information at different scales and improve the detection performance of the model for occluded bird nest targets. Finally, the lightweight MobileNetV3 network was adopted as the backbone network to further reduce the complexity of the model. Ablation experiments and qualitative experimental analysis demonstrated that, the recall, precision and mean average precision of the improved algorithm were respectively improved by 2.0 percentage point, 0.7 percentage point and 1.7 percentage point compared with the original algorithm, and the weight and the computational amount were reduced by 74.7 percentage point and 53.5 percentage point, respectively. The results showed good performance for the occluded bird nest targets, which verified the effectiveness of the improved method.

Keywords: transmission line ; occlusion target ; YOLOv5 ; attention mechanism ; asymptotic feature pyramid network

PDF (5885KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

尹向雷, 屈少鹏, 解永芳, 苏妮. 基于渐进特征融合及多尺度空洞注意力的遮挡鸟巢检测. 浙江大学学报(工学版)[J], 2025, 59(3): 535-545 doi:10.3785/j.issn.1008-973X.2025.03.011

YIN Xianglei, QU Shaopeng, XIE Yongfang, SU Ni. Occluded bird nest detection based on asymptotic feature fusion and multi-scale dilated attention. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(3): 535-545 doi:10.3785/j.issn.1008-973X.2025.03.011

随着人们生态环境保护意识的提升,鸟类数量不断增加,这对输电线路的安全稳定运行造成了极大的威胁[1]. 据统计,与鸟巢相关的停电事件发生次数仅次于雷电和外力事故相关的[2],鸟类活动已成为我国输电线路停运的第3大原因. 因此,输电线路鸟巢检测对于电力系统稳定运行有着重大意义.

传统巡检方式易受主观判断的影响,存在时间成本高以及工作环境危险的问题[3]. 无人机、机器人、在线监测等巡检方式会产生大量图片与视频,仅依靠人眼进行故障识别,容易产生误判与漏判的问题[4]. 所以亟须提出基于深度学习的目标检测方法,以减少巡检成本、提高检测效率、增强检测准确性以及有效保障电力系统安全.

传统输电线路目标检测主要是基于图像处理、特征提取和分类模型等技术,这种方法消耗成本高. 徐晶等[5]提出基于颜色和纹理特征融合的鸟巢检测方法. Lu等[6]分析鸟巢和铁塔的不同特点,使用级联分类器和特征组合进行鸟巢分类. 李浩然等[7]提出基于二维阈值分割的Canny算子边缘优化法对绝缘子裂纹进行检测,通过增强HIS(horizontal situation indicator)颜色空间的S分量和使用二维直方图的局部方差进行阈值处理,提高了绝缘子裂纹检测的精度.

Hinton等[8]提出深度学习理论,基于深度学习的目标检测方法不断发展. 主要包括单阶段目标检测方法[911]和两阶段目标检测方法[1214]. 魏业文等[15]利用Faster-RCNN对目标进行检测,并在输出部分引入精炼阶段,解决了传统方法响应速度慢与准确率不高的问题. 王纪武等[16]提出改进Faster R-CNN的鸟巢检测方法,优化了ResNet-50特征提取网络,并在不同深度的卷积特征图上使用上采样和SENet(squeeze and excitation networks)模块增强检测效果. 杨学存等[17]提出在YOLOv3(you only look once v3)中,使用深度可分离卷积与PAN(path aggregation network),提升鸟巢检测网络速度和小目标检测能力,但该方法对严重遮挡目标检测效果较差,存在召回率较低的问题. 赵霖等[18]提出改进YOLOv5的输电线路鸟巢检测方法,通过引入卷积注意力模块(convolutional block attention module,CBAM)、自适应特征融合模块和Mish激活函数,提高了检测算法的性能,但未考虑到轻量化模型. 王杨杨等[19]提出改进YOLOv4输电线路鸟巢检测方法,通过引入深度可分离卷积、改进锚框设计、建立回归损失函数以及增强特征融合能力等技术手段,提高了模型的效率和精度. Zhang等[20]使用改进YOLOv4模型进行输电铁塔鸟巢检测,通过添加swin transformer和ghost模块以提升特征提取能力和处理速度. Han等[21]提出改进YOLOX绝缘子及其缺陷检测方法,在骨干以及颈部添加SIoU和ECA(efficient channel attention)注意力机制,改进方法平均精度均值提高了2.74个百分比. 然而,由于上述研究方法未能充分考虑和处理关于被遮挡鸟巢的特征信息,并且输电线路巡检图像中的鸟巢呈现出多样性和随机性的特点,在复杂场景中难以快速准确地识别和区分出被遮挡的鸟巢目标.

针对上述问题,提出MMA-YOLOv5的输电线路鸟巢目标检测方法. 使用MobileNetV3轻量化网络优化YOLOv5原始骨干网络,大幅度地减少模型的权重大小与计算量;使用渐进特征金字塔网络(asymptotic feature pyramid network,AFPN)增强非相邻层特征融合效果;使用多尺度空洞注意力机制(multi-scale dilated attention,MSDA),提高算法对遮挡目标的敏感性. 最后,通过数据增强后得到的数据集进行实验验证,以证明改进算法的有效性.

1. YOLOv5目标检测网络

Ultralytics LLC公司提出了YOLOv5,YOLOv5更注重轻量级设计,以适应嵌入式设备和移动平台的需求,提高了推理速度,成为了单阶段目标检测代表性算法之一. YOLOv5包含4个版本:YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x. 这些版本在模型结构上基本相同,主要区别在于模型的深度和宽度[22]. 本研究目标检测任务选取具有轻量级与较快检测速度的YOLOv5s作为基准模型. 如图1所示,YOLOv5s网络模型主要由3部分组成:骨干网络(Backbone)、颈部网络(Neck)和预测头部(Head).

图 1

图 1   YOLOv5s网络结构图

Fig.1   Network structure diagram of YOLOv5s


骨干网络由CBS、C3以及SPPF模块组成,主要作用是对输入图像进行特征提取,并不断缩小特征图. CBS模块由一个二维卷积层、一个批量归一化层和SiLU激活函数构成,它将输入特征图分成多个子图,每个子图都独立地进行卷积操作,然后将输出结果按照通道维度进行连接,最终输出特征图. C3模块主要作用是增加网络的深度和感受野,提高特征提取的能力. SPP模块是一种应用在卷积神经网络中的池化模块,能够实现数据的空间不变性和位置不变性,以便提高模型识别能力. SPPF模块在SPP模块的基础上,改进最大池化的连接方式,以实现更快的检测速度.

由于检测目标在图像中的位置和大小具有差异性,YOLOv5颈部网络采用的FPN(feature pyramid network)+PAN特征金字塔结构处理多尺度目标检测问题[23]. FPN自顶向下进行上采样,使得特征图尺寸变大,便于融合来自骨干网络中的特征图,捕获更强的语义信息;PAN自底向上进行下采样操作,使顶层特征能够蕴含目标的位置信息. 将2种特征进行融合,确保不同尺寸的特征图包含目标的语义信息与细节信息,从而实现对不同尺寸目标的精确检测.

预测头部由3个1×1卷积组成,用于处理特征金字塔输出的3个检测特征图,3个特征图的尺寸分别为20×20×512、40×40×256、80×80×128. 其中,使用IoU_loss函数衡量预测框和真实框之间的差异. 为了避免对同一个物体重复检测,使用NMS非极大抑制去除冗余的预测框,保留最接近真实框的预测框.

2. 改进算法

YOLOv5在各个模块的设计上都充分考虑到了速度与精度的平衡,但输电线路鸟巢的检测存在目标被遮挡的问题,YOLOv5无法满足对遮挡目标的检测精准性. 因此,须对YOLOv5进行改进,以实现对输电线路鸟巢的精准检测. 为了降低检测模型的权重与计算量大小,提升算法对被遮挡鸟巢的识别能力,以YOLOv5作为基准算法,通过优化其骨干网络与颈部网络,提出MMA-YOLOv5算法,算法框架如图2所示.

图 2

图 2   MMA-YOLOv5算法框架

Fig.2   MMA-YOLOv5 algorithm framework


首先,基准算法模型权重与计算量较大,在设备部署时存在一定的困难. 因此,通过使用轻量级MobileNetV3网络优化原始模型的骨干网络,可以在小幅度降低算法性能的同时,有效降低模型的权重与计算量大小. 其次,基准算法颈部网络在进行特征融合时,会导致非相邻层特征的丢失与退化. 本研究采用AFPN渐进特征金字塔网络,提升非相邻层特征的融合效果,进而提升模型对特征的提取能力. 最后,在进行输电线路鸟巢检测时,鸟巢目标容易出现被杆塔遮挡的情况. 为了更进一步提升模型对特征的专注度,选取MSDA注意力机制,使算法在被关注的感受野内能够聚合各个尺度上的语义信息,并有效地提取不同尺度的语义信息,以提高算法的检测性能.

2.1. 改进骨干网络

谷歌团队在MobileNetV1的深度可分离卷积和MobileNetV2的倒残差结构基础上,引入了神经网络架构搜索(NAS)、h-swish激活函数和SE通道注意力机制,提出了轻量级MobileNetV3网络[24]. 本研究选取MobileNetV3-small优化YOLOv5原始骨干网络,在小幅度降低模型检测准确率的情况下,大幅度减少模型的参数量与计算量. 为了验证骨干网络优化选择的有效性,进行对比实验分析,如表1所示. 表中,S为权重大小,F为计算量(每秒浮点运算次数). MobilNetV3的权重大小与计算量分别为25.8 MB与11.3×109,相较于其他轻量化网络的权重与计算量较大. 但其精确率、召回率与平均精度均值均高于其他轻量化网络的. 这是因为MobilNetV3在保持较小模型尺寸的同时,引入了SE模块,提高了特征的表达能力;使用h-swish激活函数保持非线性特性,提高模型检测的准确性并降低了模型对硬件设备的要求;使用深度可分离卷积,减少了模型的参数量与计算量. 经过300轮训练,不同轻量化网络的平均精度均值曲线如图3所示.

表 1   轻量化网络对比实验结果

Tab.1  Results of lightweight network comparison experiment

实验P/%R/%mAP@0.5/%S/MBF/109
ShuffleNetV289.291.088.115.38.0
EfficientNetV287.992.088.921.95.6
Ghost88.093.088.520.210.7
Mobileone81.092.085.312.88.4
MobileNetV389.193.089.625.811.3

新窗口打开| 下载CSV


图 3

图 3   轻量化网络平均精度均值对比实验结果

Fig.3   Comparison experiment results of mean average precision of lightweight network


2.1.1. 深度可分离卷积

深度可分离卷积由深度卷积与逐点卷积构成,如图4所示,首先通过深度卷积在通道内进行特征提取,然后利用逐点卷积实现通道间的信息融合,2种卷积组合称为深度可分离卷积,大大减少了参数量. 标准卷积如图5所示.

图 4

图 4   深度可分离卷积

Fig.4   Depth separable convolution


图 5

图 5   标准卷积

Fig.5   Standard convolution


标准卷积参数量:$ {D_{\text{K}}} \times {D_{\text{K}}} \times M \times N $. 标准卷积计算量:$ {D_{\text{K}}} \times {D_{\text{K}}} \times M \times N \times {D_{\text{F}}} \times {D_{\text{F}}} $,其中,$ {D_{\text{F}}} $为特征图尺寸,$ {D_{\text{K}}} $为卷积核尺寸,M为输入通道数,N为输出通道数.

深度可分离卷积参数量:$ {D_{\text{K}}} \times {D_{\text{K}}} \times M+M \times N $. 深度卷积计算量:$ {D_{\text{K}}} \times {D_{\text{K}}} \times M \times {D_{\text{F}}} \times {D_{\text{F}}}+M \times N \times {D_{\text{F}}} \times {D_{\text{F}}} $.

改进后的模型参数量与计算量较之YOLOv5原始模型均减少了:

$ \begin{split} & \frac{{{D_{\text{K}}} \times {D_{\text{K}}} \times M+M \times N}}{{{D_{\text{K}}} \times {D_{\text{K}}} \times M \times N}}= \\&\qquad \frac{{{D_{\text{K}}} \times {D_{\text{K}}} \times M \times {D_{\text{F}}} \times {D_{\text{F}}}+M \times N \times {D_{\text{F}}} \times {D_{\text{F}}}}}{{{D_{\text{K}}} \times {D_{\text{K}}} \times M \times N \times {D_{\text{F}}} \times {D_{\text{F}}}}} =\\ &\qquad \frac{1}{N}+\frac{1}{{D_{\text{K}}^{\text{2}}}} .\end{split} $

2.1.2. 线性瓶颈的倒残差结构

ReLU激活函数处于低维空间中,可能丢失很多特征信息. 深度可分离卷积在高维运算空间操作时,能够更好地提取目标特征. 因此,在倒残差结构中,前2层使用ReLU6作为激活函数,最后一层使用线性激活函数代替原始的非线性激活函数,防止破坏太多的特征信息.

2.1.3. h-swish激活函数

为了提高模型检测的准确性,将ReLU6函数作为近似函数代替sigmoid函数进行计算,即h-swish函数. h-swish激活函数的计算速度比swish函数更快,在深层次网络中效果更好,并且在精度方面并没有差异. h-swish函数表达式如下:

$ {\text{h}} {\text{-}} {\text{swish}}(x) = \dfrac{\;\;x\;\;}{\;\;6\;\;} {{{\mathrm{ReLU}}{\text{6}}(x+{\text{3}})}}.$
(1)

2.1.4. SE通道注意力机制

为了解决轻量化导致的模型检测精度的小幅度下降,MobileNetV3增加了SE注意力模块,S指Squeeze(压缩),将输入特征图中的空间信息进行压缩,再进行Excitation(激励),指将压缩得到的信息,与输入的特征图进行融合,最终得到具有通道注意力的特征图,如图6所示. 图中,X为输入特征图,其维度为H′×W′×C′,其中H′和W′分别表示特征图的高度和宽度,C′表示通道数;X′为经过SE模块处理后的特征图,其维度为H×W×C,通常H=H′,W=W′,C=C′,即输入和输出特征图的维度相同;X1为通过全局平均池化(Fsq)操作得到的通道描述符,其维度为1×1×C,表示对每个通道的空间信息进行压缩,保留了通道间的统计信息;X2为通过全连接层(Fex)得到的通道注意力权重,其维度同样为1×1×C,表示每个通道的重要性;$\tilde {\boldsymbol{X}} $为加权后的特征图,通过将注意力权重X2与输入特征图X′逐通道相乘得到,其维度为H×W×C.

图 6

图 6   SE通道注意力机制

Fig.6   SE channel attention mechanism


2.2. 多尺度空洞注意力机制

ViT模型[25]通过Transformer结构在图像分类中建立长远距离上下文依赖关系,但这种全局感受野增加了计算成本. ViT在全局注意力的图像交互时,浅层特征呈现局部性和稀疏性2个特征,得分较高的锚框稀疏地分布在索引锚框周围,距离索引锚框较远的模块得分普遍偏低,因此在浅层使用全局依赖的模型存在冗余性. 卷积神经网络主要捕捉局部特征. 为了平衡计算负担和感受野,可以通过局部注意力机制调整ViT,减少对长距离依赖的建模. 利用这一特性减少模型的冗余性,以降低计算量.

2.2.1. 滑窗空洞注意力

为了减少距离索引图较远的图给模型带来的冗余性的影响,使用滑窗空洞注意力(sliding window dilated attention,SWDA)对局部区域稀疏图进行自注意力计算:

$ \begin{split} {x_{ij}} =& {\text{Attention}}\;({{\boldsymbol{Q}}_{ij}},{{\boldsymbol{K}}_{\text{r}}},{{\boldsymbol{V}}_{\text{r}}})= \\ & {\text{Softmax}}\left(\frac{{{{\boldsymbol{Q}}_{ij}}{\boldsymbol{K}}_{\text{r}}^{\text{T}}}}{{\sqrt {{d_{\text{k}}}} }}\right){{\boldsymbol{V}}_{\text{r}}};\; 1 \leqslant i \leqslant W,1 \leqslant j \leqslant H .\end{split} $
(2)

式中:Qij$ {{\boldsymbol{K}}_{\text{r}}} $$ {{\boldsymbol{V}}_{\text{r}}} $表示从Q$ {\boldsymbol{K}} $$ {\boldsymbol{V}} $中采样得到的值,$ {\boldsymbol{Q}} $$ {\boldsymbol{K}} $$ {\boldsymbol{V}} $分别表示query(查询)、key(索引)和value(内容)矩阵.

采样的位置表达式如下:

$ \begin{split} \big\{ (i',j')|i' =& i+p r',\;j' = j+q r'\big\} ; \\ & - {w}/{2} \leqslant p,\;q \leqslant {w}/{2}.\end{split} $
(3)

式中:$ (i',j') $为采样位置,$ w $为滑框尺寸,$ r' $为稀疏控制系数.

SWDA通过在query周围稀疏地选择key和value,满足局部性和稀疏性,且减少了计算量.

2.2.2. 多尺度空洞注意力

基于SWDA,多尺度空洞卷积使用不同的空洞率进行多尺度交互,如图7所示.

图 7

图 7   多尺度空洞注意力

Fig.7   Multi-scale dilated attention


在MSDA中,将特征图在通道维度分成多个头,在不同的头中使用不同的空洞系数对query周围的图进行采样,用于自注意力计算. 最后,将不同头的计算结果进行拼接,拼接结果进入线性层进行计算. 滑动窗口的尺寸为3×3,空洞系数r=1、2、3. MSDA表达式如下:

$ \left.\begin{split} {h_i} =& {\text{SWDA}}\;({{\boldsymbol{Q}}_i},{{\boldsymbol{K}}_i},{{\boldsymbol{V}}_i},{r_i}),1 \leqslant i \leqslant {{n}}; \\ {\boldsymbol{X}} =& {\text{Linear}}\;({\text{Concat}}\;\left[ {{h_1}, \cdots ,{h_{{n}}}} \right]).\end{split}\right\} $
(4)

式中:$ {r_i} $表示第$ i $个头的空洞系数,$ {{\boldsymbol{Q}}_i} $$ {{\boldsymbol{K}}_i} $$ {{\boldsymbol{V}}_i} $表示第$ i $个头的特征.

MSDA模块同样采用多头的设计,将特征图的通道分为n个不同的头部,并在不同的头部使用不同的空洞率执行SWDA. 这样可以在被关注的感受野内的各个尺度上聚合语义信息,有效地提取不同尺度的语义信息,并有效地减少自注意力机制的冗余,无须复杂的操作和额外的计算成本.

图8所示,通过模型注意力可视化图,可以确定模型注意力是否正确地聚焦于鸟巢目标. 通过添加MSDA使得模型能够更加准确且专注地注意到背景复杂且存在遮挡的鸟巢目标,降低了对重要目标特征的忽视和对无关信息的错误关注.

图 8

图 8   注意力图可视化对比

Fig.8   Visualization comparison of attention map


2.3. 改进颈部网络

在鸟巢目标检测任务中,提取出的特征信息应包含目标的细节信息和语义信息. YOLOv5通过FPN+PAN结构实现多尺度特征融合,利用自上而下和自下而上的路径进行特征交互,以融合高层的语义信息和底层的细节信息. 然而,高层与低层特征在传递过程中可能经历信息丢失或退化. 为了解决这一挑战,采用AFPN强化非相邻层之间的特征融合,解决特征信息丢失或退化问题.

在传统特征金字塔网络中,非相邻层特征通过自上而下与自下而上的方式交互,而在AFPN中引入渐进交互方式,如图9所示,避免非相邻层特征之间的语义信息差距大于相邻层特征之间的语义信息差距. 首先从骨干网络的每层特征层提取最后一层特征,将低层特征C2、C3输入渐进特征金字塔中进行一次特征融合,然后添加深层特征C4,与之前添加的低层特征进行特征融合,最后添加顶层的最抽象特征C5进行特征融合,最终产生一组多尺度特征P2、P3、P4、P5.

图 9

图 9   AFPN渐进架构

Fig.9   AFPN asymptotic architecture


AFPN还引入了特征融合机制,用于增强非相邻层特征融合效果. 利用ASFF(adaptively spatial feature fusion)为不同层次的特征分配不同的空间权重,网络自适应地学习各尺度特征,使不同层次的特征可以更好地融合,有效地提升目标检测性能.

3. 实 验

3.1. 实验环境与数据集

实验设备操作系统为Windows11,处理器(CPU)为12th Gen Intel(R) Core(TM) i7-12650H,显卡(GPU)为NVIDIA GeForce RTX 4060 Laptop (8GB). 改进算法模型基于软件环境为CUDA11.8与Python3.8,实验框架为Pytorch2.0.1.

训练过程参数设置如下:初始学习率为0.01,学习率动量为0.937,采用sgd优化器进行优化,优化器权重衰减为0.0005,训练轮次为300 轮,训练批次(batch-size)为16,输入图片大小为640 × 640.

本研究实验数据集由2部分组成:1)网络中获取的可用的输电线路鸟巢目标图像. 2)公开数据集(BNTL)[26]与中国电力线绝缘子数据集(CPLID)[27]. 为了提高模型的泛化能力,将筛选出的图像使用高斯模糊、随机遮挡与随机擦除等一系列数据增强手段,解决数据集多样性差与质量不齐的问题,最终组成本研究实验的2152张图像数据集. 数据集包括小尺寸的鸟巢对象、被杆塔严重遮挡的鸟巢以及与背景融合的鸟巢. 使用Labelimg图片标注工具对数据集进行标注,格式为VOC,将完成标注的图像与标签文件,按照8∶1∶1的比例划分为训练集、验证集与测试集.

3.2. 评价指标

采用常用的目标检测性能评价指标对不同算法进行比较,包括精确率P、召回率R以及平均精度均值mAP@0.5(mean average precision). 精确率衡量的是所有预测为正的结果中,预测正确的比例,又称查准率;召回率衡量的是真实为正的样本有多少被预测为正,又称查全率;mAP@0.5指IoU=0.5时计算的平均精度均值,其中IoU为衡量在特定数据集中检测相应物体准确度的一个标准. 表达式分别如下:

$ P= \frac{{{\mathrm{TP}}}}{{{\mathrm{TP+FP}}}}, $
(5)

$ R = \frac{{{\mathrm{TP}}}}{{{\mathrm{TP+FN}}}}, $
(6)

$ {\mathrm{mAP}} = \dfrac{1}{N}{{\displaystyle\sum\limits_{i = 1}^N {{\mathrm{AP}}_i} }}. $
(7)

式中::TP为正确预测为正的数量;FP为错误预测为正的数量;FN为错误预测为负的数量;$ {\mathrm{AP}}_i $为第$ i $个类别的平均精度;N为类别数量,在本实验中N=1.

3.3. 实验结果分析

3.3.1. 改进算法与基准算法对比实验

为了评估本研究改进算法MMA-YOLOv5的性能,以召回率、准确率以及平均精度均值作为评价指标,将MMA-YOLOv5算法与YOLOv5基准算法进行对比.

所提出的MMA-YOLOv5算法与YOLOv5基准算法的损失函数LOSS对比如图10(a)、(b)所示. 损失函数量化了模型预测与实际数据之间的差异,通过损失值的最小化,使得模型能够改善其预测能力,并在面对新数据时表现出更好的泛化能力. 由图10(a)、(b)这2个损失函数的收敛曲线可知,改进后的模型较YOLOv5,收敛速度更快、收敛性更强以及损失更低. 证明了本研究提出的算法具有更快的检测速度.

图 10

图 10   改进前后算法损失函数曲线图

Fig.10   Loss function curve for improved and original algorithms


不过,本研究仍存在一定的不足,由图10(b)可知,改进后算法的验证集损失函数在前100轮迭代时,出现了剧烈震荡的情况,这是因为在模型优化器对学习率进行调整的过程中,优化器会将学习率拉升至相对较高的数值,此时优化器使用该学习率对模型参数进行梯度下降,而这会导致优化参数越过数值最优解,导致损失函数升高.

MMA-YOLOv5与YOLOv5算法精确率与召唤率对比曲线如图11(a)、(b)所示. 可以看出,通过使用AFPN来增强模型非相邻层的融合效果,避免了非相邻层特征交互时导致的特征退化或丢失,并且引入MSDA注意力机制来提高模型对目标特征的提取能力与专注力,减少了模型的漏检率. 改进后模型的精确率与召回率分别为90.3%与96.0%,相较于YOLOv5分别提升了0.7个百分比与2.0个百分比,证明了改进后模型对于背景复杂或存在遮挡的目标具有更高的检测精度.

图 11

图 11   改进前后算法性能对比

Fig.11   Performance comparison for improved and original algorithms


为了验证改进后模型的综合性能,对2种算法在平均精度方面进行实验对比,实验结果如图12所示. 改进后的模型平均精度均值趋于稳定后高于原始模型的平均精度均值曲线,MMA-YOLOv5的平均精度均值为91.6%,相较于原始模型提高了1.7个百分比,证明了改进后模型的可行性与优越性.

图 12

图 12   平均精度均值对比

Fig.12   Comparison of mean average precision


3.3.2. 消融实验分析

为了验证改进算法各个模块的有效性,设计了消融实验,将3个模块MobileNetV3、AFPN以及MSDA进行不同组合,在精确率P、召回率R以及平均精度均值mAP@0.5等方面进行对比实验,结果如表2所示. 表中,“√”表示采用此改进方法.

表 2   消融实验结果

Tab.2  Results of ablation experiment

实验MobileNet-V3
轻量化网络
AFPNMSDAP/%R/%mAP@0.5/%S/MBF/109
YOLOv589.694.089.934.415.9
189.193.089.625.811.3
292.891.088.829.720.4
391.993.089.731.516.8
487.396.091.49.27.9
587.194.089.05.72.5
691.891.089.433.721.3
改进算法90.396.091.68.77.4

新窗口打开| 下载CSV


表2可知,本研究的消融实验是以YOLOv5算法作为基准模型;实验1引入MobileNet-V3轻量化网络作为骨干网络,通过深度可分离卷积、倒残差结构方法,牺牲了小幅度的算法性能,算法的平均精度均值降低了0.3个百分比,但是模型的权重大小与计算量降低了25.0个百分比与27.0个百分比;实验2使用AFPN来提升非相邻层特征融合效果,模型的精确率提高了3.2个百分比,但模型的计算量提升了28.3个百分比;实验3使用MSDA注意力机制,模型的精确率提高了2.3个百分比,但依旧存在计算量大的问题;实验4在实验1的基础上使用了AFPN,大大减少了算法模型的权重大小与计算量,相较于YOLOv5算法,新算法模型的权重大小与计算量分别减少了73.3个百分比与50.3个百分比,并且召回率与平均精度均值分别提高了2.0个百分比与1.5个百分比,但精确率下降了2.3个百分比;实验5在实验1的基础上使用MSDA注意力机制,相较于YOLOv5算法,新算法模型的权重大小与计算量得到了大幅度地下降,分别降低了83.4个百分比与84.3个百分比,但模型的精确率与平均精度均值均分别下降了2.5个百分比与0.9个百分比;实验6在实验2的基础上使用了MSDA注意力机制,相较于YOLOv5算法,新算法的精确率提升了2.2个百分比,算法其余性能与计算量均未得到优化;本研究改进算法的准确率、召回率与平均精度均值较基准模型分别提升了0.7个百分比、2.0个百分比与1.7个百分比,并且算法权重大小与计算量均得到了优化,在提升了算法的检测性能的同时实现了网络结构的轻量化,可以准确、高效、实时地完成输电线路鸟巢目标检测任务.

3.3.3. 不同算法对比实验

为了验证改进算法MMA-YOLOv5相较于其他主流目标检测算法的优越性,在相同数据集下对不同目标检测算法进行对比试验. 实验结果如表3所示,可以看出,在检测准确率方面,YOLOv3的准确率最高,达到了94.8%,高于其他主流目标检测算法以及本研究改进算法,但其平均精度均值与召回率仅为89.3%与91.0%,并且其模型权重与计算量过大,可能导致无法在资源受限的设备上运行. 相比之下,本研究改进算法使用轻量级网络MobileNetV3优化模型骨干网络,使得模型权重与计算量得到了大幅度降低. 此外,改进后算法的平均精度均值与召回率分别为91.6%与96.0%,相比于Faster RCNN、SSD、YOLOv4以及YOLOv5,均表现出了优越的性能.

表 3   不同算法对比实验结果

Tab.3  Comparison of results of different algorithms

实验P/%R/%mAP@0.5/%S/MBF/109
Faster R-CNN77.887.586.3108.2251.4
SSD83.375.079.790.672.3
YOLOv394.891.089.3235.0155.3
YOLOv488.679.986.1244.4100.7
YOLOv589.694.089.934.415.9
改进算法90.396.091.68.77.4

新窗口打开| 下载CSV


为了进一步验证改进算法的有效性,进行定性实验分析,如图13所示为定性实验所用被遮挡的测试图像. 如图14所示展示了MMA-YOLOv5与其他主流目标检测算法在鸟巢目标被遮挡的测试图像上的检测结果. 其他主流目标检测算法出现了以下问题. 1)Faster RCNN未检测到图14(d1)图中的鸟巢目标,在对图14(c1)鸟巢图像进行检测时,出现一处误检;2)SSD未检测到图14(a2)、(d2)图中的鸟巢目标;3)YOLOv3未检测到图14(b3)、(d3)图中的鸟巢目标;4)YOLOv4对所有鸟巢目标均未能检测到;5)YOLOv5未检测到图14(b5)、(d5)图中的鸟巢目标. 综上所述,改进后的模型对于存在遮挡的鸟巢实现了较好的检测性能.

图 13

图 13   被遮挡的测试图像示意图

Fig.13   Illustration of occluded test image


图 14

图 14   不同算法的检测结果

Fig.14   Detection results of different algorithm


4. 结 语

YOLOv5算法在检测遮挡鸟巢目标时,存在检测精度低、漏检率高、模型权重与计算量过大等缺点. 针对上述问题,提出MMA-YOLOv5的输电线路鸟巢目标检测方法. 为了解决模型权重与计算量过大的问题,并且使得改进后的算法模型能够有效地部署在检测设备上,通过MobileNetV3轻量化网络优化YOLOv5原始骨干网络,能够大幅度地减少模型的参数量与计算量,满足轻量化与实时性要求. 输电线路鸟巢易被杆塔遮挡,通过使用AFPN来增强YOLOv5颈部网络中非相邻层特征融合效果,避免高层特征与低层特征交互时,出现特征的丢失与退化的问题. 使用MSDA注意力机制模块,聚合感受野内各个尺度语义信息,提升模型对目标的专注力与特征提取能力,进而提高算法对遮挡鸟巢目标的检测精度. 实验结果表明,改进算法的召回率、精确率与平均精度均值分别提升了2.0个百分比、0.7个百分比与1.7个百分比,权重大小与计算量分别减少了74.7个百分比与53.5个百分比,对硬件设备要求小. 因此,改进后的算法满足野外作业实时性与轻量化的要求,并且能够高效地完成输电线路鸟巢检测任务,具有良好的工程应用价值.

虽然改进后的算法相较于YOLOv3的准确率偏低,但是召回率与平均精度均值更高、权重与参数量更小,能够更好地部署在检测设备上. 在未来研究中,将进一步优化算法网络的特征提取与识别能力,提高模型检测精度.

参考文献

陈杰, 朱仕焜, 孙嫱, 等

面向无人机前端轻量级应用的输电线路鸟巢智能检测

[J]. 福州大学学报: 自然科学版, 2023, 51 (4): 539- 546

[本文引用: 1]

CHEN Jie, ZHU Shikun, SUN Qiang, et al

Bird’s nest intelligent detection on transmission lines for unmanned aerial vehicle front-end lightweight application

[J]. Journal of Fuzhou University: Natural Science Edition, 2023, 51 (4): 539- 546

[本文引用: 1]

WEN X, WU Q, WANG Y, et al

High-risk region of bird streamer flashover in 110 kV composite insulators and design for bird-preventing shield

[J]. International Journal of Electrical Power and Energy Systems, 2021, 131: 107010

DOI:10.1016/j.ijepes.2021.107010      [本文引用: 1]

裴少通, 张行远, 胡晨龙, 等

基于ER-YOLO算法的跨环境输电线路缺陷识别方法

[J]. 电工技术学报, 2024, 39 (9): 2825- 2840

[本文引用: 1]

PEI Shaotong, ZHANG Hangyuan, HU Chenlong, et al

The defect detection method for cross-environment power transmission line based on the ER-YOLO algorithm

[J]. Transactions of China Electrotechnical Society, 2024, 39 (9): 2825- 2840

[本文引用: 1]

何冠锋. 基于深度学习的输电线路鸟巢检测研究[D]. 东莞: 东莞理工学院, 2023.

[本文引用: 1]

HE Guanfeng. Research on bird nest detection of transmission lines based on deep learning [D]. Dongguan: Dongguan University of Technology, 2023.

[本文引用: 1]

徐晶, 韩军, 童志刚, 等

一种无人机图像的铁塔上鸟巢检测方法

[J]. 计算机工程与应用, 2017, 53 (6): 231- 235

[本文引用: 1]

XU Jing, HAN Jun, TONG Zhigang, et al

Method for detecting bird’s nest on tower based on UAV image

[J]. Computer Engineering and Applications, 2017, 53 (6): 231- 235

[本文引用: 1]

LU J, XU X, LI X, et al

Detection of bird’s nest in high power lines in the vicinity of remote campus based on combination features and cascade classifier

[J]. IEEE Access, 2018, 6: 39063- 39071

DOI:10.1109/ACCESS.2018.2851588      [本文引用: 1]

李浩然, 高健, 吴田, 等

基于改进Canny算子的绝缘子裂纹检测研究

[J]. 智慧电力, 2021, 49 (2): 91- 98

[本文引用: 1]

LI Haoran, GAO Jian, WU Tian, et al

Crack detection method of insulators based on improved canny operator

[J]. Smart Power, 2021, 49 (2): 91- 98

[本文引用: 1]

LECUN Y, BENGIO Y, HINTON G

Deep learning

[J]. Nature, 2015, 521 (7553): 436- 444

[本文引用: 1]

REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Las Vegas: IEEE, 2016: 779–788.

[本文引用: 1]

LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multiBox detector [C]// European Conference on Computer Vision . [s.l.]: Springer, 2016: 21–37.

LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection [C]// Proceedings of the IEEE International Conference on Computer Vision . Venice: IEEE, 2017: 2999–3007.

[本文引用: 1]

GIRSHICK R. Fast R-CNN [C]// Proceedings of the IEEE International Conference on Computer Vision . Santiago: IEEE, 2015, 7: 1440–1448.

[本文引用: 1]

REN S, HE K, GIRSHICK R, et al

Faster R-CNN: towards real-time object detection with region proposal networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39 (6): 1137- 1149

DOI:10.1109/TPAMI.2016.2577031     

HE K, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN [C]// Proceedings of the IEEE International Conference on Computer Vision . Venice: IEEE, 2017: 2980–2988.

[本文引用: 1]

魏业文, 李梅, 解园琳, 等

基于改进Faster-RCNN的输电线路巡检图像检测

[J]. 电力工程技术, 2022, 41 (2): 171- 178

[本文引用: 1]

WEI Yewen, LI Mei, XIE Yuanlin, et al

Transmission line inspection image detection based on improved Faster-RCNN

[J]. Electric Power Engineering Technology, 2022, 41 (2): 171- 178

[本文引用: 1]

王纪武, 罗海保, 鱼鹏飞, 等

基于Faster R-CNN的多尺度高压塔鸟巢检测

[J]. 北京交通大学学报, 2019, 43 (5): 37- 43

[本文引用: 1]

WANG Jiwu, LUO Haibao, YU Pengfei, et al

Bird’s nest detection in multi-scale of high-voltage tower based on Faster R-CNN

[J]. Journal of Beijing Jiaotong University, 2019, 43 (5): 37- 43

[本文引用: 1]

杨学存, 和沛栋, 陈丽媛, 等

基于深度可分离卷积的轻量级YOLOv3输电线路鸟巢检测方法

[J]. 智慧电力, 2021, 49 (12): 88- 95

[本文引用: 1]

YANG Xuecun, HE Peidong, CHEN Liyuan, et al

Bird’s nest detection on lightweight YOLOv3 transmission line based on deep separable convolution

[J]. Smart Power, 2021, 49 (12): 88- 95

[本文引用: 1]

赵霖, 王素珍, 邵明伟, 等

基于改进YOLOv5的输电线路鸟巢缺陷检测方法

[J]. 电子测量技术, 2023, 46 (3): 157- 165

[本文引用: 1]

ZHAO Lin, WANG Suzhen, SHAO Mingwe, et al

Improved YOLOv5-based bird’s nest defect detection method for transmission lines

[J]. Electronic Measurement Technology, 2023, 46 (3): 157- 165

[本文引用: 1]

王杨杨, 曹晖, 莫文昊

基于深度学习的改进型YOLOv4输电线路鸟巢检测与识别

[J]. 智慧电力, 2023, 51 (1): 101- 107

[本文引用: 1]

WANG Yangyang, CAO Hui, MO Wenhao

Bird’s nest det1ection and identification on improved YOLOv4 transmission line based on deep learning

[J]. Smart Power, 2023, 51 (1): 101- 107

[本文引用: 1]

ZHANG Z, HE G

Recognition of bird nests on power transmission lines in aerial images based on improved YOLOv4

[J]. Frontiers in Energy Research, 2022, 10: 870253

DOI:10.3389/fenrg.2022.870253      [本文引用: 1]

HAN G, LI T, LI Q, et al

Improved algorithm for insulator and its defect detection based on YOLOX

[J]. Sensors, 2022, 22 (16): 6186

DOI:10.3390/s22166186      [本文引用: 1]

肖粲俊, 潘睿志, 李超, 等

基于改进YOLOv5s绝缘子缺陷检测技术研究

[J]. 电子测量技术, 2022, 45 (24): 137- 144

[本文引用: 1]

XIAO Canjun, PAN Ruizhi, LI Chao, et al

Research on defect detection technology based on improved YOLOv5s insulator

[J]. Electronic Measurement Technology, 2022, 45 (24): 137- 144

[本文引用: 1]

张焕龙, 齐企业, 张杰, 等

基于改进YOLOv5的输电线路鸟巢检测方法研究

[J]. 电力系统保护与控制, 2023, 51 (2): 151- 159

[本文引用: 1]

ZHANG Huanlong, QI Qiye, ZHANG Jie, et al

Bird nest detection method for transmission lines based on improved YOLOv5

[J]. Power System Protection and Control, 2023, 51 (2): 151- 159

[本文引用: 1]

郝琨, 王阔, 王贝贝

基于改进Mobilenet-YOLOv3的轻量级水下生物检测算法

[J]. 浙江大学学报: 工学版, 2022, (8): 1622- 1632

[本文引用: 1]

HAO Kun, WANG Kuo, WANG Beibei

Lightweight underwater biological detection algorithm based on improved Mobilenet-YOLOv3

[J]. Journal of Zhejiang University: Engineering Science, 2022, (8): 1622- 1632

[本文引用: 1]

袁天乐, 袁巨龙, 朱勇建, 等

基于改进YOLOv5的推力球轴承表面缺陷检测算法

[J]. 浙江大学学报: 工学版, 2022, (12): 2349- 2357

[本文引用: 1]

YUAN Tianle, YUAN Julong, ZHU Yongjian, et al

Surface defect detection algorithm of thrust ball bearing based on improved YOLOv5

[J]. Journal of Zhejiang University: Engineering Science, 2022, (12): 2349- 2357

[本文引用: 1]

LI J, YAN D, LUAN K, et al

Deep learning-based bird’s nest detection on transmission lines using UAV imagery

[J]. Applied Sciences, 2020, 10 (18): 6147

DOI:10.3390/app10186147      [本文引用: 1]

TAO X, ZHANG D, WANG Z, et al

Detection of power line insulator defects using aerial images analyzed with convolutional neural networks

[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2020, 50 (4): 1486- 1498

DOI:10.1109/TSMC.2018.2871750      [本文引用: 1]

/