浙江大学学报(工学版), 2026, 60(3): 604-613 doi: 10.3785/j.issn.1008-973X.2026.03.016

计算机技术、控制工程

轻量级改进RT-DETR的葡萄叶片病害检测算法

刘慧,, 王防修,, 王意, 黄淄博, 苏晨

武汉轻工大学 数学与计算机学院,湖北 武汉 430048

Lightweight improved RT-DETR algorithm for grape leaf disease detection

LIU Hui,, WANG Fangxiu,, WANG Yi, HUANG Zibo, SU Chen

School of Mathematics and Computer Science, Wuhan Polytechnic University, Wuhan 430048, China

通讯作者: 王防修,男,副教授. orcid.org/0009-0000-2342-3848. E-mail: wfx323@whpu.edu.cn

收稿日期: 2025-05-25  

基金资助: 湖北省高校优秀中青年科技创新团队资助项目(T2021009);湖北省教育厅科技计划资助项目(D20211604).

Received: 2025-05-25  

Fund supported: 湖北省高校优秀中青年科技创新团队资助项目(T2021009);湖北省教育厅科技计划资助项目(D20211604).

作者简介 About authors

刘慧(2002—),女,硕士生,从事目标检测、深度学习的农业工程应用研究.orcid.org/0009-0006-3184-7994.E-mail:2283298757@qq.com , E-mail:2283298757@qq.com

摘要

针对葡萄叶片病害检测任务中存在的复杂背景干扰、小目标漏检及模型部署资源受限等问题,提出基于改进RT-DETR的轻量化检测算法SCGI-DETR. 引入高效轻量级的StarNet架构作为特征提取网络,减少模型的参数量和计算量,实现模型的轻量化. 设计CGSFR-FPN特征金字塔网络,通过空间特征重建和多尺度特征融合策略,增强模型对全局上下文信息的感知能力,提升复杂背景下多尺度病斑的定位精度. 构建Inner-PowerIoU v2损失函数,利用全局收敛加速与局部区域对齐机制,加速边界框回归,提高小目标检测性能. 实验结果表明,SCGI-DETR在葡萄叶片病害数据集上的精确率、召回率和mAP@0.5分别为91.6%、89.8%和93.4%,较原模型分别提升了2.6%、2.4%和2.3%,参数量与计算量分别减少了46.2%和64%. 该结果表明,改进算法在实现轻量化的同时,具备更优的检测性能,满足移动端和嵌入式设备的部署需求.

关键词: 葡萄叶片病害 ; RT-DETR ; StarNet ; 特征金字塔 ; 轻量化网络

Abstract

A lightweight detector SCGI-DETR was proposed based on an enhanced RT-DETR in order to address challenges in grape leaf disease detection—complex background, missed detection of small target, and resource-constrained deployment. The efficient StarNet backbone was employed to reduce parameter count and computational cost, enabling lightweight deployment. A feature pyramid CGSFR-FPN was designed. Spatial feature reconstruction was combined with multi-scale feature fusion in order to strengthen global context modeling and improve localization of multi-scale lesions in cluttered scenes. The Inner-PowerIoU v2 loss was constructed, which integrated global convergence acceleration and local region alignment in order to speed up bounding-box regression and enhance small-object detection performance. SCGI-DETR attained 91.6% precision, 89.8% recall and 93.4% mAP@0.5 on a grape leaf disease dataset, which improved 2.6, 2.4 and 2.3 percentage points over the baseline, and reduced parameters and computation by 46.2% and 64%, respectively. Results demonstrate that the improved algorithm achieves lightweight implementation while delivering superior detection performance, meeting deployment requirements for mobile and embedded devices.

Keywords: grape leaf disease ; RT-DETR ; StarNet ; feature pyramid ; lightweight network

PDF (6104KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

刘慧, 王防修, 王意, 黄淄博, 苏晨. 轻量级改进RT-DETR的葡萄叶片病害检测算法. 浙江大学学报(工学版)[J], 2026, 60(3): 604-613 doi:10.3785/j.issn.1008-973X.2026.03.016

LIU Hui, WANG Fangxiu, WANG Yi, HUANG Zibo, SU Chen. Lightweight improved RT-DETR algorithm for grape leaf disease detection. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(3): 604-613 doi:10.3785/j.issn.1008-973X.2026.03.016

葡萄是我国重要的经济作物,在全球农业生产和农业经济中占据重要地位. 在葡萄的生长过程中,植株易受多种不利因素影响,进而制约产量与品质. 其中,葡萄叶片病害是限制生产的关键因素之一[1]. 常见病害达十余种,可导致叶片脱落、枯萎、变色,并削弱光合作用与养分吸收,降低抗逆性与产量,严重时甚至造成植株死亡. 快速准确地识别病害类型并及时采取有效防控措施,对保障葡萄产业的稳定发展至关重要.

传统的病害识别主要依赖人工观察和经验判断,存在工作量大、主观性强、准确率低且易受环境干扰等问题. 此外,病害种类繁多且症状高度相似,当缺乏专业知识时极易造成误判,导致防治延迟,最终影响产量. 近年来,深度学习方法在植物病害识别中得到广泛的应用. 目前,主流的目标检测框架包括以Faster R-CNN[2]为代表的二阶检测器和以SSD[3]、YOLO[4]等为代表的一阶检测器. 研究表明,两类方法在农业病害检测中均取得显著进展. 姜晟等[5]提出改进的Faster R-CNN的茶叶叶部病害识别方法,结合特征金字塔网络与Rank&Sort损失函数,大幅提升了复杂背景下的识别精度. Pan等[6]提出CDDLite-YOLO模型,引入GSCONV模块重构颈部网络,在棉花病害检测中实现90.6%的mAP与222.22 帧/s,验证了轻量化模型在农业边缘计算中的潜力.

尽管卷积神经网络(convolutional neural network, CNN)在农业病害检测中应用广泛,但锚框机制复杂、后处理繁琐与鲁棒性不足等问题限制性能的进一步提升. 随着Transformer[7]在自然语言处理中的广泛应用,研究者开始探索无锚框检测方法的可行性. Zhao等[8]提出Real-Time Detection Transformer(RT-DETR),无需候选框生成与NMS后处理,直接预测目标数量、位置及类别,有效抑制冗余预测框,从而提高检测性能与运行效率. 近年来,Transformer架构的目标检测模型已被广泛用于农作物病害检测. Huangfu等[9]提出改进的HHS-RT-DETR模型,结合HS-FPN、HWD下采样与ShapeIoU优化,在柑橘黄龙病检测中精度提升了7.9%,召回率提升了9.9%. Yang等[10]将DHLC-FPN与DETR融合,通过多尺度特征融合与小目标优化,在水稻病害数据集上实现97.44%的准确率. Fu等[11]在改进RT-DETR的基础上提出轻量级葡萄叶片病害检测模型,采用MobileNetV4与Light-SFPN,将模型参数量压缩至8.76×106,并保持96.3%的检测精度. 文献[11]方法侧重轻量化,但对检测速度、小目标识别与复杂背景适应性的系统性评估仍显不足.

尽管相关研究的进展显著,Transformer检测仍受到计算与存储开销大、小目标识别不足及复杂背景适应性欠佳等限制. 本文提出基于改进RT-DETR的SCGI-DETR(StarNet context-guided integrated detection Transformer)算法,旨在解决葡萄叶片病害检测任务中精度不高且参数量较大而难以部署在边缘设备上的问题. 本文的主要贡献如下. 1)在RT-DETR中采用StarNet[12]作为特征提取主干网络,提升计算效率,实现模型的轻量化. 2)设计基于上下文引导的空间特征重建特征金字塔网络(context-guided spatial feature reconstruction feature pyramid network, CGSFR-FPN),增强复杂背景与多尺度病害的感知能力,提高检测精度与召回率. 3)构建Inner-PowerIoU v2(inner powerful intersection over union v2)损失函数,优化原广义交并比[13](generalized intersection over union, GIoU)损失,提高模型对小目标的检测能力.

1. 材料与方法

1.1. 数据集构建

以葡萄叶片病害检测为目标任务,选取黑麻疹病(black_measles)、黑腐病(black_root)、叶枯病(blight)及健康叶片(healthy)4类样本作为研究对象. 为了保证数据的多样性、真实性和可靠性,实验数据来源于PlantVillage公开数据集和Kaggle网站上的Grapevine Disease Dataset (Original)及Grape_disease数据集中的部分图像数据. 将收集的图像使用LabelImg工具进行人工标注,生成相应的类别标签和边界框. 每类病害特征图像如图1所示.

图 1

图 1   葡萄叶片病害的样本图

Fig.1   Sample picture of grape leaf disease


为了提高模型的鲁棒性与泛化能力,采用随机翻转、仿射变换、高斯模糊和对比度变换等数据增强策略扩充样本,得到9 255幅葡萄叶片图像. 此外,为了保证模型输入的一致性,将所有的图像尺寸标准化为640×640像素,按照7︰2︰1的比例随机划分为训练集、验证集和测试集. 具体类别与数量如表1所示. 其中,n为图像数量.

表 1   葡萄病害数据集的图像数量

Tab.1  Number of images in grape disease dataset

叶片类别$n$
训练集验证集测试集图像数量
黑麻疹病1 6584702482 376
黑腐病1 5664892082 263
叶枯病1 4664212292 116
健康1 7874722412 500
总数6 47718529269 255

新窗口打开| 下载CSV


1.2. RT-DETR介绍

RT-DETR是基于Transformer的实时端到端目标检测算法,它通过解耦基于注意力的尺度内特征交互(attention-based intra-scale feature interaction, AIFI)和基于CNN的跨尺度特征融合(CNN-based cross-scale feature fusion, CCFF)来高效地处理多尺度特征,在降低计算量的同时满足实时性. 模型采用ResNet-18作为主干网络,输出来自最后3个阶段的多尺度特征图($ {{\boldsymbol{P}}_{\text{3}}} $$ {{\boldsymbol{P}}_{\text{4}}} $$ {{\boldsymbol{P}}_{\text{5}}} $). 在编码器中,AIFI模块对$ {{\boldsymbol{P}}_{\text{5}}} $高级特征进行尺度内特征交互,增强全局与局部的信息融合能力. CCFF模块采用自底向上和自顶向下的双路径融合策略,将多尺度特征整合为特征序列并送入解码器. 解码器利用交并比(intersection over union, IoU)感知查询选择机制,优化初始对象查询及损失函数,生成最终的目标边界框与置信度分数.

1.3. SCGI-DETR模型

为了提升RT-DETR在葡萄叶片病害检测任务中的性能,降低计算资源需求并提高检测精度,提出基于改进RT-DETR的模型——SCGI-DETR,其网络结构如图2所示. 采用StarNet作为特征提取的主干网络,通过优化网络结构,降低模型参数量和计算复杂度. 设计CGSFR-FPN特征金字塔网络,用于处理并融合不同尺度的特征图,提高模型对复杂背景和多尺度目标的检测性能. 构建Inner-PowerIoU v2损失函数,对模型进行优化. 该损失函数能够更精准地衡量预测框与真实框的重叠程度,进而加速网络收敛,降低漏检率,提高对葡萄叶片小目标病害的检测能力.

图 2

图 2   SCGI-DETR网络的结构图

Fig.2   Structure diagram of SCGI-DETR network


1.3.1. StarNet主干网络

在自然场景下进行葡萄叶片病害检测时,移动端或边缘端的计算资源有限,因而模型的轻量化与高效性尤为重要. 采用轻量级架构StarNet作为特征提取的主干网络. StarNet基于星操作运算,通过逐元素乘法的方式融合不同子空间的特征,在保持低复杂度的同时,增强输入数据的高维映射能力,提升特征提取效果和多尺度信息融合能力. 在单层网络中,星操作可以表示为2个线性变换特征的逐元素乘法,数学表达形式如下:

$ f({\boldsymbol{X}}) = ({\boldsymbol{W}}_{\text{1}}^{\text{T}}{\boldsymbol{X}}+{{\boldsymbol{B}}_1})\times ({\boldsymbol{W}}_{\text{2}}^{\text{T}}{\boldsymbol{X}}+{{\boldsymbol{B}}_2}) \in {{{\bf{R}}}^d}. $

式中:$ {{\boldsymbol{W}}_1} $${{\boldsymbol{W}}_2}$为权重矩阵,${{\boldsymbol{B}}_1}$$ {{\boldsymbol{B}}_2} $为偏置项,${\boldsymbol{X}}$为输入特征.

该操作可以隐式构建${d^2}$维特征空间的交互关系,显式计算复杂度仅为$ {{O}}(d) $,显著低于传统卷积和注意力机制. 在不增加网络深度或宽度的前提下,星操作可以显著提升对病斑边缘、纹理与光照变化等复杂信息的建模能力.

StarNet采用4级分层架构,共包含12个Star Block块,结构如图3所示. 其中,ks为卷积核大小,stride为步长. 在每个阶段开始前,以3×3卷积(Conv)完成下采样与通道调整;随后接入多个Star Block以进行高维特征提取. 在Star Block内部,先经过7×7的深度卷积(Depthwise Convolution, DWConv)提取空间信息,结合批量归一化(batch normalization, BN)实现特征标准化. 通过2路1×1卷积升维,其中一路使用ReLU6激活. 以星操作融合2路输出,经1×1卷积和7×7深度卷积完成降维和语义增强. 该设计既提升特征提取效率,又兼顾轻量化需求,为资源受限平台上的病害检测提供结构支撑.

图 3

图 3   StarNet网络的结构图

Fig.3   Structure diagram of StarNet network


1.3.2. CGSFR-FPN特征金字塔网络

针对RT-DETR在葡萄叶片病害识别中对细微特征敏感度不足、易误检与漏检的问题,设计基于空间特征重建与多尺度融合的CGSFR-FPN特征金字塔网络. 该模块强化上下文利用能力,有效提升复杂背景下病害区域的识别与定位精度.

受CGRSeg[14]的启发,CGSFR-FPN颈部含4个模块:矩形自校准模块(rectangular self-calibration module, RCM)、金字塔上下文提取模块(pyramid context extraction module, PCE)、多特征融合模块(feature blending module, FBM)及动态插值融合模块(dynamic interpolation fusion, DIF).

RCM的结构如图4所示,主要由矩形自校准注意力(rectangular self-calibration attention, RCA)、批量归一化与多层感知器(multilayer perceptron, MLP)构成. 该模块通过RCA对输入特征图进行水平与垂直池化,捕获轴向全局上下文. 再以向量广播加法融合信息. 通过矩形自校准函数校准特征,增强前景表达. 在RCA之后引入BN与MLP细化特征,通过残差连接形成完整的RCM. RCM的整体处理流程如下:

图 4

图 4   RCM模块的结构

Fig.4   Structure of RCM module


${\operatorname{RCM}\;\left(\boldsymbol{F}_{\text {in }}\right)=\rho\left(\delta_{3 \times 3}\left(\boldsymbol{F}_{\text {in }}\right) \odot \boldsymbol{\xi}_{\mathrm{C}}\left({H}_{\mathrm{P}}\left(\boldsymbol{F}_{\text {in }}\right) \oplus {V}_{\mathrm{P}}\left(\boldsymbol{F}_{\text {in }}\right)\right)\right)+\boldsymbol{F}_{\text {in }} . }$

式中:$ {{\delta}_{3 \times 3}} $表示3×3深度卷积,$ {{\boldsymbol{F}}_{{\text{in}}}} $为网络输入,$ \odot $表示Hadamard积,$ {{\boldsymbol{\xi }}_{\text{C}}} $为矩形自校准函数, $\oplus$表示广播加法,HPVP分别表示水平池化和垂直池化,$\rho $指向BN和MLP.

PCE采用金字塔结构整合不同层级的特征,实现多尺度上下文的有效提取,增强模型对复杂病害的感知能力,架构如图5所示. 主干网络生成多尺度特征图[$ {{\boldsymbol{P}}_{\text{3}}} $,$ {{\boldsymbol{P}}_{\text{4}}} $,$ {{\boldsymbol{P}}_{\text{5}}} $],分辨率分别为$[ (H /8) \times (W /8), (H/ {16}) \times (W /16),(H /32) \times (W /32)] $. 通过平均池化,将$ {{\boldsymbol{P}}_{\text{3}}} $$ {{\boldsymbol{P}}_{\text{4}}} $$ {{\boldsymbol{P}}_{\text{5}}} $统一下采样到$ (H /64) \times (W /64) $的大小后进行特征拼接融合,构建新的金字塔特征. 该特征被输入至3个堆叠的RCM进行金字塔特征交互,以提取尺度感知的语义特征. 对交互后的特征进行拆分并上采样至原始尺度,提升多尺度病害检测的精度与鲁棒性. 该过程如下:

图 5

图 5   PCE模块的结构

Fig.5   Structure of PCE module


$ {{\boldsymbol{P}}'_{\text{3}}},{{\boldsymbol{P}}'_{\text{4}}},{{\boldsymbol{P}}'_{\text{5}}} = {\text{RCM}}\;({\text{Ag}}\;({{\boldsymbol{P}}_{\text{3}}},8),{\text{Ag}}\;({{\boldsymbol{P}}_{\text{4}}},4),{\text{Ag}}\;({{\boldsymbol{P}}_{\text{5}}},2)). $

式中:$ {\text{Ag}}\;({\boldsymbol{F}},x) $表示对特征图$ {\boldsymbol{F}} $使用平均池化操作下采样$x$倍,$ {{\boldsymbol{P}}'_{\text{3}}} $$ {{\boldsymbol{P}}'_{\text{4}}} $$ {{\boldsymbol{P}}'_{\text{5}}} $为包含多尺度感知信息的新特征图.

为了增强细微病害特征感知并降低复杂背景干扰,引入FBM与DIF,用于空间特征重构,从而提升复杂场景下的识别性能. FBM通过多特征融合,将主干提取的低级空间特征与PCE生成的高级特征对齐并融合,保证特征空间一致性;DIF采用动态插值,使不同尺度的特征平滑融合,增强多尺度表征能力. 该过程如下:

$ \left. \begin{gathered} {{\boldsymbol{F}}_{\text{3}}} = {\text{RCM}}\;({{\boldsymbol{P}}_{\text{3}}}) \oplus {{\boldsymbol{F}}_{\text{4}}} \odot {{\boldsymbol{P}}'_{\text{3}}}, \\ {{\boldsymbol{F}}_{\text{4}}} = {\text{RCM}}\;({{\boldsymbol{P}}_{\text{4}}}) \oplus {{\boldsymbol{F}}_{\text{5}}} \odot {{\boldsymbol{P}}'_{\text{4}}}, \\ {{\boldsymbol{F}}_{\text{5}}} = {\text{RCM}}\;({{\boldsymbol{P}}_{\text{5}}}) \odot {{\boldsymbol{P}}'_{\text{5}}}. \\ \end{gathered} \right\} $

式中:$ \oplus $表示逐元素相加,$ \odot $表示逐元素相乘.

融合特征图经展平(flatten)与连接得到特征向量,作为IoU感知查询选择的输入,最终输出检测结果. 整个CGSFR-FPN处理流程如下:

$ \left. \begin{gathered} {{\boldsymbol{C}}_{\text{1}}} = {\text{RepC3}}\;({\text{Cat}}\;({\text{DownSample}}\;({{\boldsymbol{F}}_{\text{3}}}),{{\boldsymbol{F}}_{\text{4}}})), \\ {{\boldsymbol{C}}_{\text{2}}} = {\text{RepC3}}\;({\text{Cat}}\;({\text{DownSample}}\;({{\boldsymbol{C}}_{\text{1}}}),{{\boldsymbol{F}}_{\text{5}}})), \\ {\bf{Out}} = {\text{Cat}}\;({\text{Flat}}\;({{\boldsymbol{F}}_{\text{3}}}),{\text{Flat}}\;({{\boldsymbol{C}}_{\text{1}}}),{\text{Flat}}\;({{\boldsymbol{C}}_{\text{2}}})). \\ \end{gathered} \right\} $

式中:$ {\text{RepC3}}( \cdot ) $表示经RepC3处理后的特征图,$ {\text{Cat}}( \cdot ) $表示连接操作,$ {\text{DownSample}}( \cdot ) $表示下采样操作,$ {\text{Flat}}( \cdot ) $表示flatten操作.

1.3.3. Inner-PowerIoU v2损失函数

RT-DETR使用的GIoU虽然能够有效地度量预测框与真实框的重叠,但对微小偏差较敏感,因而不利于小目标回归的准确性与优化效率. 引入PIoU v2[15](增强型交并比v2,Powerful-IoU v2)损失,以改进上述问题. 相较原始PIoU,PIoU v2采用非单调聚焦机制强化对中等质量预测框的关注,并结合目标尺度的自适应惩罚因子与基于框质量的梯度调节函数,引导预测框沿更优路径回归,加速收敛并提升精度. PIoU v2的计算公式为

$ u(x) = 3x \cdot {{\text{e}}^{ - {x^2}}}, $

$ {L_{{\text{PIoUv2}}}} = u(\lambda {{\text{e}}^{ - P}}) \cdot ({L_{{\text{IoU}}}}+1 - {{\text{e}}^{ - {P^2}}}). $

式中:$ u(x) $为注意力函数;$ \lambda $为控制注意力函数的超参数;$ P $为惩罚因子,用于衡量锚框质量.

尽管PIoU v2提升了边界框回归的效率与鲁棒性,但在小尺度、边界不规则的病斑场景中,仅依赖整体重叠度(IoU)难以稳定刻画细微偏差,定位仍受限. PIoU v2的优化目标仍以$ {L_{{\mathrm{IoU}}}} $(基于IoU的损失,IoU为交并比、无量纲、取值为0~1.0)为核心,难以显式约束预测框与真实框内部的对齐关系. 引入内部交并比[16](inner intersection over union, Inner-IoU),通过度量预测框与真实框在内部区域的加权重叠,弱化边界处微小偏差的影响,更适配于小尺度与不规则病斑的精准定位. Inner-IoU的计算公式为

$\small\left. \begin{gathered} {\text{Io}}{{\text{U}}^{{\text{inner}}}} = \frac{{{\text{inter}}}}{{{\text{union}}}} = \\ \frac{{({\text{min}}\;\{b_{\mathrm{r}}^{{\text{gt}}},{b_{\mathrm{r}}}\} - {\text{max}}\;\{b_{\mathrm{l}}^{{\text{gt}}},{b_{\mathrm{l}}}\})({\text{min}}\;\{b_{\mathrm{b}}^{{\text{gt}}},{b_{\mathrm{b}}}\} - {\text{max}}\;\{b_{\mathrm{t}}^{{\text{gt}}},{b_{\mathrm{t}}}\})}}{{({w^{{\text{gt}}}}{h^{{\text{gt}}}}){s^2}+(wh){s^2} - {\text{inter}}}}, \\ L_{{\mathrm{Inner}}{\text{-}}{\mathrm{IoU}}}=1-{\text{Io}}{{\text{U}}^{{\text{inner}}}}. \\\end{gathered} \right\}$

式中:$ {\text{inter}} $$ {\text{union}} $分别为真实框与预测框的交集与并集;$ b_{\mathrm{t}}^{{\text{gt}}} $$ b_{\mathrm{b}}^{{\text{gt}}} $$ b_{\mathrm{l}}^{{\text{gt}}} $$ b_{\mathrm{r}}^{{\text{gt}}} $分别为真实框的上、下、左和右边界;$ {b_{\mathrm{t}}} $$ {b_{\mathrm{b}}} $$ {b_{\mathrm{l}}} $$ {b_{\mathrm{r}}} $分别为预测框的上、下、左和右边界;wgthgt分别为真实框的宽度和高度;wh分别为预测框的宽度和高度;$s$为Inner IoU的尺度因子,用于调整辅助框大小,以增强泛化能力.

为了兼顾全局回归与局部对齐,提出融合型边界框损失函数Inner-PowerIoU v2,结构如图6所示. 该损失融合PIoU v2的全局优化与Inner-IoU的局部对齐优势,在提升预测框回归的鲁棒性的同时,有效增强对小目标与不规则病斑的定位能力,呈现更强的综合性能与泛化效果,尤其适用于以葡萄叶片病害为代表的复杂农业图像场景. Inner-PowerIoU v2的计算公式为

图 6

图 6   Inner-PowerIoU v2的结构图

Fig.6   Structure diagram of Inner-PowerIoU v2


$ {L_{{\text{Inner - PIoUv2}}}} = u(\lambda {{\text{e}}^{ - P}}) \cdot (2 - {\text{Io}}{{\text{U}}^{{\text{inner}}}} - {{\text{exp}}\;({ - {P^{\text{2}}}}})). $

2. 实验结果与分析

2.1. 实验环境和评价指标

实验环境采用Ubuntu 20.04操作系统,PyTorch 1.10.0深度学习框架,Python版本为3.8.0,CUDA版本为11.3,CPU型号为Intel(R) Xeon(R) Platinum 8481C,显卡型号为NVIDIA GeForce RTX 4090D,24 GB显存. 在训练过程中,将学习率设为0.000 1,训练轮数设为100轮,采用AdamW优化器,批处理大小设置为16,动量系数和权重衰减系数分别设为0.9和0.000 1.

为了全面评估检测性能,采用精确率P、召回率R、mAP@0.5(IoU阈值为0.5时的平均精度)、参数量${N_{\text{P}}}$、计算量FLOPs及推理速度$v$作为评价指标. 相关计算公式如下:

$ P = \frac{{{\text{TP}}}}{{{\text{TP+FP}}}}, $

$ R = \frac{{{\text{TP}}}}{{{\text{TP+FN}}}}, $

$ {\text{mAP}} = \frac{1}{n}\sum\limits_{i = 1}^n {\int_0^1 P } (R){\text{d}}R. $

式中:${\text{TP}}$为正确检测的病害数量,${\text{FP}}$为错误检测的病害数量,${\text{FN}}$为漏检的病害数量.

参数量和计算量用于评估模型复杂度和资源消耗. 通常,参数量越大,模型的表达能力越强,但计算成本越高. 计算量越大,推理时间越长,对硬件需求也越高.

2.2. 结果分析

2.2.1. 消融实验

为了验证SCGI-DETR各改进模块的有效性,在葡萄叶片病害数据集上开展消融实验. 如表2所示,在更换主干网络为StarNet后,参数量由19.9×106降至12.0×106,FLOPs由57.0×109降至31.8×109. 精确率、召回率及mAP@0.5分别提升了1.3%、1.0%和1.1%,验证了StarNet通过星操作增强高维特征表达能力的有效性,在降低复杂度的同时提升了整体性能. 单独引入CGSFR-FPN可以进一步提升性能,表明该颈部网络在特征融合方面具有显著优势. 其中,RCM通过轴向上下文建模,增强了复杂背景下的目标感知能力. DIF利用动态插值机制实现多尺度特征融合,提升检测鲁棒性与定位精度. Inner-PowerIoU v2主要优化边界框的回归精度,融合全局收敛加速与局部对齐的机制,强化预测框与真实框内部重叠的匹配. 该损失显著提升了小目标病斑的定位质量与回归稳定性,不增加额外计算开销. 三者协同后,mAP@0.5提升至93.4%,参数量与FLOPs较基线算法分别下降46.2%和64.0%,实现了轻量化与高精度的协同优化.

表 2   消融实验的对比结果

Tab.2  Comparison result of ablation experiment

StarNetCGSFR-FPNInner-PowerIoU v2P/%R/%mAP@0.5/%${N_{\text{P}}}$/106FLOPs/109
89.087.491.119.957.0
90.388.492.212.031.8
90.688.992.419.248.2
90.388.491.819.957.0
90.789.592.710.720.5
90.989.092.712.031.8
89.988.691.819.248.2
91.689.893.410.720.5

新窗口打开| 下载CSV


2.2.2. 轻量级主干网络的对比

为了验证StarNet主干网络的有效性,选取4种主流轻量级主干进行对比:FasterNet[17]、EfficientViT[18]、RepViT[19]和MobileNetV4[20]. 实验结果见表3. 结果显示,StarNet在保持较低参数量与计算量的同时,各项精度指标均最优. 与基线ResNet-18相比,StarNet的精确率提升了1.3%,mAP@0.5提升了1.1%. StarNet的推理速度达到72.2 帧/s,高于ResNet-18的67.2 帧/s,体现了更强的特征提取能力与推理效率. 与其他轻量级主干相比,FasterNet和EfficientViT的参数量与FLOPs更低,但mAP分别降至91.0%与90.8%,推理速度仅为66.3与43.5 帧/s,表明二者以牺牲精度换取轻量化. RepViT的参数量与FLOPs均高于StarNet,检测精度和速度明显落后. MobileNetV4的mAP@0.5略高,但是在参数量、计算复杂度和推理速度上均不及StarNet. 综合来看,StarNet在保证轻量化的同时实现更优的检测精度与推理速度,证明了其作为RT-DETR主干网络的综合优势.

表 3   不同轻量级主干网络的对比结果

Tab.3  Comparison result of different lightweight backbone network

模型方法P/%R/%mAP@0.5/%${N_{\text{P}}}$/106$v$/(帧⋅s−1)FLOPs/109
RT-DETRResNet-18(原算法)89.087.491.119.967.257.0
RT-DETRFasterNet89.787.491.010.966.328.5
RT-DETREfficientViT88.987.590.810.743.527.2
RT-DETRRepViT89.887.191.213.357.636.3
RT-DETRMobileNetV489.787.891.711.370.739.5
RT-DETRStarNet90.388.492.212.072.231.8

新窗口打开| 下载CSV


2.2.3. 损失函数的对比实验

为了评估Inner-PowerIoU v2的有效性,选取7种主流边界框回归损失函数进行对比,包括EIoU[21]、SIoU[22]、PIoU、PIoU v2、Inner-IoU、Wise-IoU[23]和Shape-IoU[24]. 从表4可以看出,Inner-PowerIoU v2在mAP@0.5、精确率和召回率3项核心指标上均表现优异,其中mAP@0.5达到91.8%,较基线GIoU提升0.7个百分点;精确率和召回率分别提升1.3个百分点和1.0个百分点. 相比之下,PIoU v2与Wise-IoU的整体性能较好,mAP@0.5分别为91.7%与91.5%,但召回率低于Inner-PowerIoU v2,说明在小目标检测上存在一定程度的漏检问题. Shape-IoU强调预测框与真实框间的几何一致性,在形状匹配上具有一定的优势,但葡萄病斑的形态多样,泛化能力受限. 传统方法如EIoU和SIoU的计算效率较高,但在多尺度目标尤其是小目标与复杂背景下鲁棒性较弱,难以保持稳定的检测性能.

表 4   不同损失函数对SCGI-DETR的影响

Tab.4  Effect of different loss function on SCGI-DETR

损失函数P/%R/%mAP@0.5/%
GIoU(基线)89.087.491.1
EIoU88.887.290.8
SIoU89.587.491.0
PIoU90.287.391.3
PIoU v290.088.091.7
Inner-IoU90.287.791.4
Wise-IoU89.687.891.5
ShapeIoU90.087.891.3
Inner-PowerIoU v290.388.491.8

新窗口打开| 下载CSV


综合来看,Inner-PowerIoU v2通过融合全局收敛加速与局部区域对齐机制,有效提升边界框的回归精度,显著降低小目标与边缘模糊病斑的漏检率,泛化能力与应用前景良好.

为了探究尺度因子对Inner-PowerIoU v2的影响,设置$s$为0.5~1.5,步长为0.1,开展对比实验,结果见表5. 实验表明,尺度因子的变化对模型精度与鲁棒性的影响显著. 当$s = {\text{1}}{\text{.0}}$时模型最优,mAP@0.5为91.8%. 当$s = {\text{0}}{\text{.8}}\sim {\text{1.2}}$时,各项指标稳定,表明Inner-PowerIoU v2在该范围内具有良好的鲁棒性. 当$s < 0.8$时,模型性能出现明显的波动,尤其当$s = 0.5$时,尽管召回率接近峰值,但精确率显著降低,表明过小的$s$会增加将背景纹理误判为病斑的风险. 当$s > 1.2$时,召回率明显降低,整体性能呈现下降趋势. 当$s = 1.5$时,mAP@0.5降至91.4%,召回率降至87.7%,说明过大的尺度因子使得模型过度关注全局特征,从而削弱对小目标与边缘模糊病斑的识别.

表 5   不同尺度因子对SCGI-DETR的影响

Tab.5  Effect of different scale factor on SCGI-DETR

$s$P/%R/%mAP@0.5/%
0.589.688.091.5
0.689.388.391.5
0.789.787.891.4
0.890.088.191.7
0.990.288.291.7
1.090.388.491.8
1.190.388.091.7
1.289.788.291.7
1.389.988.091.6
1.489.588.191.6
1.589.787.791.4

新窗口打开| 下载CSV


这些结果表明,Inner-PowerIoU v2在尺度因子设置为0.8~1.2时均能维持优异且稳定的性能,尤其当$s = 1.0$时达到最优的效果,验证了该损失在该参数配置下具有良好的鲁棒性与泛化能力.

2.2.4. 模型性能的对比实验

为了全面评估各检测模型在葡萄叶片病害数据集上的表现并验证所提算法的有效性,选取主流架构开展对比:一阶段(SSD、YOLO系列、EfficientDet[25])、二阶段(Faster R-CNN)与端到端Transformer架构(Deformable DETR[26]、DINO[27]、MS-DETR[28]). 所有模型均在相同的葡萄病害图像数据集和评估指标下进行测试,实验结果见表6.

表 6   不同模型的对比实验结果

Tab.6  Comparison experimental result of different models

模型P/%R/%mAP@0.5/%${N_{\text{P}}}$/106$v$/(帧⋅s−1)FLOPs/109
SSD(2016)80.776.783.126.232.562.6
Faster R-CNN(2016)81.675.382.841.312.9212.8
EfficientDet(2020)83.778.684.533.413.4260.7
YOLOv7[29](2022)89.888.792.636.482.8103.2
YOLOv8s(2023)91.089.593.011.1122.328.4
YOLOv9s[30](2024)89.488.192.19.698.738.7
YOLOv10s[31](2024)90.687.792.58.1130.224.5
YOLOv11s[32](2024)91.288.693.19.4124.221.3
Deformable DETR(2020)89.188.091.039.910.8179.6
DINO(2022)89.487.992.346.77.3279.2
MS-DETR(2023)89.688.592.353.530.59117.1
RT-DETR(2023)89.087.491.119.967.257.0
SCGI-DETR(本文方法)91.689.893.410.766.720.5

新窗口打开| 下载CSV


结果显示,SCGI-DETR的检测精度最优,且在参数量与计算复杂度上具有显著的优势. 与YOLOv8s、YOLOv10s和YOLOv11s相比,SCGI-DETR的mAP@0.5分别提升了0.4%、0.9%和0.3%,且召回率更高,表明SCGI-DETR在复杂背景下对小目标与边缘病斑的检测能力更强. 在复杂度与推理效率方面,SCGI-DETR的参数量为10.7×106,计算量为20.5×109,体现了优良的轻量化特性. 与参数更冗余的Transformer模型如MS-DETR、DINO与Deformable DETR相比,SCGI-DETR在显著降低资源消耗的同时保持更高的精度. 另外,YOLOv10s与YOLOv11s的推理速度分别达到130.2和124.2 帧/s,具备一定的实时优势,但精度略低于SCGI-DETR. 相较之下,SCGI-DETR在保证93.4% mAP的同时,推理速度达到66.7帧/s,在精度与实时性间取得了更优的平衡,适用于精度要求高且算力受限的农业场景.

为了验证SCGI-DETR在小目标与复杂背景场景下的检测效果,在葡萄叶片病害数据集上选取具有代表性的YOLOv8s、YOLOv11s、MS-DETR、原算法及改进后的SCGI-DETR,开展可视化对比,如图78所示. 其中,统一以圆圈标注漏检,以三角形标注误检. 图7显示,在小目标密集分布场景中,YOLOv8s与YOLOv11s在病斑密集区域存在明显的漏检,许多病斑未被识别(见图7的圆圈). 在图8所示的田间复杂背景下进一步干扰上述2个模型,导致病斑漏检(见图8的圆圈)和误检(见图8的三角形)更严重. 相比之下,MS-DETR与RT-DETR的检测能力更强,但存在少量的漏检与边界框定位偏差,尤其在小尺寸病斑与遮挡区域表现不稳定. 与之相比,SCGI-DETR在2类场景中均表现更优:既能够精确地识别密集小病斑,又能够在复杂背景下保持较高的鲁棒性与定位精度,显著减少误检与漏检,体现其在小目标与抗干扰方面的优势.

图 7

图 7   小目标检测效果的对比

Fig.7   Comparison of small target detection effect


图 8

图 8   复杂背景下的检测效果对比

Fig.8   Comparison of detection effect under complex background


为了考察SCGI-DETR对叶片关键区域的关注能力,采用Grad-CAM[33]技术,对4类病害的注意力分布进行可视化分析. 如图9所示,SCGI-DETR的注意力更集中,显著激活区主要位于病斑及其边缘过渡带. 以叶枯病与健康叶片为例,RT-DETR的注意力较分散,部分激活误落在叶片边缘、叶脉或背景,易导致定位偏差. SCGI-DETR更精准地聚焦病斑,能够更准确地提取关键特征,从而提升检测的稳定性. 上述可视化与检测结果表明,SCGI-DETR不仅在结构层面强化了特征提取与融合,而且在实际应用中表现出更强的语义关注与判别能力,尤其适用于小目标密集、背景干扰复杂的农业病害检测.

图 9

图 9   SCGI-DETR模型对叶片重点区域关注能力的可视化结果

Fig.9   Visualization result of SCGI-DETR model’s ability to focus on key area of blade


3. 结 语

针对自然环境下葡萄叶片病害检测精度受限与算力受约束的问题,在改进RT-DETR的基础上,提出轻量高效的SCGI-DETR. 引入 StarNet 作为主干网络,利用星操作将特征投影至高维隐式空间,以增强特征表达能力并降低参数量与计算开销. 设计 CGSFR-FPN,加强多尺度病斑表征与空间上下文建模. 构建 Inner-PowerIoU v2 损失函数,提升小目标边界框回归精度及预测框与真实框的对齐效果,从而在复杂自然场景中实现更鲁棒且精确的葡萄叶片病害检测. 实验表明,在葡萄叶片病害数据集上,SCGI-DETR的精确率达到91.6%、mAP@0.5为93.4%;参数量降至10.7×106,FLOPs降至20.5×109,综合性能显著优于主流检测算法,适用于算力受限的场景. 未来工作将引入视频时序以提升鲁棒性与泛化能力,探索高光谱、可见光与近红外等多模态融合,在更大规模与跨品种数据上验证可迁移性.

参考文献

岳喜申. 基于改进YOLOv5s的葡萄叶片病害识别方法研究 [D]. 阿拉尔: 塔里木大学, 2024.

[本文引用: 1]

YUE Xishen. A study on grape leaf disease identification method based on improved YOLOv5s [D]. Alar: Tarim University, 2024.

[本文引用: 1]

REN S, HE K, GIRSHICK R, et al

Faster R-CNN: towards real-time object detection with region proposal networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39 (6): 1137- 1149

DOI:10.1109/TPAMI.2016.2577031      [本文引用: 1]

LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector [C]//14th European Conference on Computer Vision. Cham: Springer, 2016: 21–37.

[本文引用: 1]

REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779–788.

[本文引用: 1]

姜晟, 曹亚芃, 刘梓伊, 等

基于改进Faster RCNN的茶叶叶部病害识别

[J]. 华中农业大学学报, 2024, 43 (5): 41- 50

[本文引用: 1]

JIANG Sheng, CAO Yapeng, LIU Ziyi, et al

Recognition of tea leaf disease based on improved Faster RCNN

[J]. Journal of Huazhong Agricultural University, 2024, 43 (5): 41- 50

[本文引用: 1]

PAN P, SHAO M, HE P, et al

Lightweight cotton diseases real-time detection model for resource-constrained devices in natural environments

[J]. Frontiers in Plant Science, 2024, 15: 1383863

DOI:10.3389/fpls.2024.1383863      [本文引用: 1]

VASWANI A, SHAZEER N, PARMAR N, et al

Attention is all you need

[J]. Advances in Neural Information Processing Systems, 2017, 30: 5998- 6008

[本文引用: 1]

ZHAO Y, LV W, XU S, et al. DETRs beat YOLOs on real-time object detection [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 16965–16974.

[本文引用: 1]

HUANGFU Y, HUANG Z, YANG X, et al

HHS-RT-DETR: a method for the detection of citrus greening disease

[J]. Agronomy, 2024, 14 (12): 2900

DOI:10.3390/agronomy14122900      [本文引用: 1]

YANG H, DENG X, SHEN H, et al

Disease detection and identification of rice leaf based on improved detection transformer

[J]. Agriculture, 2023, 13 (7): 1361

DOI:10.3390/agriculture13071361      [本文引用: 1]

FU Z, YIN L, CUI C, et al

A lightweight MHDI-DETR model for detecting grape leaf diseases

[J]. Frontiers in Plant Science, 2024, 15: 1499911

DOI:10.3389/fpls.2024.1499911      [本文引用: 2]

MA X, DAI X, BAI Y, et al. Rewrite the stars [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 5694–5703.

[本文引用: 1]

REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized intersection over union: a metric and a loss for bounding box regression [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2020: 658–666.

[本文引用: 1]

NI Z, CHEN X, ZHAI Y, et al. Context-guided spatial feature reconstruction for efficient semantic segmentation [C]//European Conference on Computer Vision. Cham: Springer, 2024: 239–255.

[本文引用: 1]

LIU C, WANG K, LI Q, et al

Powerful-IoU: more straightforward and faster bounding box regression loss with a nonmonotonic focusing mechanism

[J]. Neural Networks, 2024, 170: 276- 284

DOI:10.1016/j.neunet.2023.11.041      [本文引用: 1]

ZHANG H, XU C, ZHANG S. Inner-IoU: more effective intersection over union loss with auxiliary bounding box [EB/OL]. (2023-11-06)[2025-03-16]. https://arxiv. org/pdf/2311.02877.

[本文引用: 1]

CHEN J, KAO S H, HE H, et al. Run, don’t walk: chasing higher FLOPS for faster neural networks [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 12021–12031.

[本文引用: 1]

LIU X, PENG H, ZHENG N, et al. EfficientViT: memory efficient vision transformer with cascaded group attention [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 14420–14430.

[本文引用: 1]

WANG A, CHEN H, LIN Z, et al. Rep ViT: revisiting mobile CNN from ViT perspective [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 15909–15920.

[本文引用: 1]

QIN D, LEICHNER C, DELAKIS M, et al. MobileNetV4: universal models for the mobile ecosystem [C]// European Conference on Computer Vision. Cham: Springer, 2024: 78–96.

[本文引用: 1]

ZHANG Y F, REN W, ZHANG Z, et al

Focal and efficient IOU loss for accurate bounding box regression

[J]. Neurocomputing, 2022, 506: 146- 157

DOI:10.1016/j.neucom.2022.07.042      [本文引用: 1]

GEVORGYAN Z. SIoU loss: more powerful learning for bounding box regression [EB/OL]. (2022-05-25)[2025-03-16]. https://arxiv.org/abs/2205.12740.

[本文引用: 1]

TONG Z, CHEN Y, XU Z, et al. Wise-IoU: bounding box regression loss with dynamic focusing mechanism [EB/OL]. (2023-01-24)[2025-03-16]. https://arxiv.org/ abs/2301.10051.

[本文引用: 1]

ZHANG H, ZHANG S. Shape-IoU: more accurate metric considering bounding box shape and scale [EB/OL]. (2023-12-29)[2025-03-16]. https://arxiv.org/abs/ 2312.17663.

[本文引用: 1]

TAN M, PANG R, LE Q V. EfficientDet: scalable and efficient object detection [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 10778–10787.

[本文引用: 1]

ZHU X, SU W, LU L, et al. Deformable DETR: deformable transformers for end-to-end object detection [EB/OL]. (2020-10-08)[2025-03-16]. https://arxiv.org/ abs/2010.04159.

[本文引用: 1]

ZHANG H, LI F, LIU S, et al. DINO: DETR with improved denoising anchor boxes for end-to-end object detection [EB/OL]. (2022-03-07)[2025-03-16]. https://arxiv.org/abs/2203.03605.

[本文引用: 1]

ZHAO C, SUN Y, WANG W, et al. MS-DETR: efficient DETR training with mixed supervision [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 17027–17036.

[本文引用: 1]

WANG C Y, BOCHKOVSKIY A, LIAO H M. YOLOv7: trainable bag-of-freebies sets new state-of-the-art for real-time object detectors [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 7464–7475.

[本文引用: 1]

WANG C Y, YEH I H, MARK LIAO H Y. YOLOv9: learning what you want to learn using programmable gradient information [C]//European Conference on Computer Vision. Cham: Springer, 2024: 1–21.

[本文引用: 1]

WANG A, CHEN H, LIU L, et al

YOLOv10: real-time end-to-end object detection

[J]. Advances in Neural Information Processing Systems, 2024, 37: 107984- 108011

[本文引用: 1]

KHANAM R, HUSSAIN M. YOLOv11: an overview of the key architectural enhancements [EB/OL]. (2024-10-23)[2025-03-16]. https://arxiv.org/abs/2410.17725.

[本文引用: 1]

SELVARAJU R R, COGSWELL M, DAS A, et al

Grad-CAM: visual explanations from deep networks via gradient-based localization

[J]. International Journal of Computer Vision, 2016, 128: 336- 359

[本文引用: 1]

/