浙江大学学报(工学版), 2025, 59(11): 2370-2378 doi: 10.3785/j.issn.1008-973X.2025.11.016

计算机技术

基于改进CenterNet算法的番茄叶片病害检测

李亚,, 蒋晨, 王海瑞, 朱贵富,, 胡灿

1. 昆明理工大学 信息工程与自动化学院,云南 昆明 650504

2. 昆明理工大学 信息化建设管理中心,云南 昆明 650504

3. 昆明理工大学-曙光信息产业股份有限公司AI联合研究中心,云南 昆明 650504

Tomato leaf disease detection based on improved CenterNet algorithm

LI Ya,, JIANG Chen, WANG Hairui, ZHU Guifu,, HU Can

1. Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650504, China

2. Information Construction Center, Kunming University of Science and Technology, Kunming 650504, China

3. Kunming University ofScience and Technology - Dawn Information Industry Limited Company AI Joint Research Center, Kunming 650504, China

通讯作者: 朱贵富,男,高级工程师. orcid.org/0009-0003-6585-7865. E-mail: zhuguifu@kust.edu.cn

收稿日期: 2024-11-15  

基金资助: 国家自然科学基金资助项目(61863016).

Received: 2024-11-15  

Fund supported: 国家自然科学基金资助项目(61863016).

作者简介 About authors

李亚(1978—),女,副教授,从事计算机应用、计算机控制、大数据技术的研究.orcid.org/0009-0007-6105-5610.E-mail:59515091@qq.com , E-mail:59515091@qq.com

摘要

为了解决在传统番茄叶片病害检测中出现的误检和漏检现象,提出基于改进CenterNet算法的番茄叶片病害检测模型. 构建融合注意力机制的特征融合模块,增强模型的跨尺度特征融合能力. 在骨干网络中加入多分支卷积模块RFB,扩大感受野,加强对目标特征的提取能力. 在骨干网络中引入金字塔卷积PyConv,通过计算不同尺度的感受野来强化多尺度特征的提取,减少信息损失. 设计剪枝优化策略,减少引入模块给模型参数量和计算量带来的影响. 试验结果显示,改进后模型的准确率、召回率、mAP50和mAP50:95达到96.3%、80.2%、91.4%和78.7%. 利用提出的模型,能够有效地提升番茄叶片病害检测的准确性,模型具有良好的泛化性.

关键词: 番茄叶片病害 ; CenterNet ; 特征融合 ; 金字塔卷积 ; 多分支卷积

Abstract

A tomato leaf disease detection model based on the improved CenterNet algorithm was proposed in order to address the false detection and missed detection phenomena in traditional tomato leaf disease detection. A feature fusion module that integrated the attention mechanism was constructed in order to enhance the model's cross-scale feature fusion capability. The multi-branch convolutional module RFB was added to the backbone network in order to expand the receptive field and enhance the ability to extract target features. The pyramid convolution PyConv was introduced into the backbone network to enhance the extraction of multi-scale features by calculating receptive fields of different scales and reduce information loss. Pruning optimization strategies were designed in order to reduce the impact of introducing modules on the number of model parameters and computational load. The test results showed that the accuracy rate, recall rate, mAP50 and mAP50:95 of the improved model reached 96.3%, 80.2%, 91.4% and 78.7% respectively. The proposed model can effectively improve the accuracy of tomato leaf disease detection, and the model has good generalization.

Keywords: tomato leaf disease ; CenterNet ; feature fusion ; pyramid convolution ; multi-branch convolution

PDF (3346KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李亚, 蒋晨, 王海瑞, 朱贵富, 胡灿. 基于改进CenterNet算法的番茄叶片病害检测. 浙江大学学报(工学版)[J], 2025, 59(11): 2370-2378 doi:10.3785/j.issn.1008-973X.2025.11.016

LI Ya, JIANG Chen, WANG Hairui, ZHU Guifu, HU Can. Tomato leaf disease detection based on improved CenterNet algorithm. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(11): 2370-2378 doi:10.3785/j.issn.1008-973X.2025.11.016

番茄作为重要的蔬菜,被广泛种植于世界各地,中国是番茄种植大国之一. 在番茄的生长过程中常受病害侵袭,及时检测和防范对保护作物健康、提高产量和质量至关重要. 早期的病害检测主要依赖于经验丰富的种植者或专家进行人工判断,这类方法存在识别效率低、易产生视觉疲劳导致判断失误的问题[1]. 随着科技的进步,新的技术手段不断涌现,为病害检测提供了新的可能性. 近年来,随着机器学习和深度学习的发展,在农业领域的应用不断增多. 传统机器学习依赖复杂特征工程和专业知识,耗时且易受限. 深度学习简化了预处理流程,大幅提高了病害识别的准确率与速度,因而被广泛应用于农作物病害检测.

刘佳明等[2]通过在MobileNetV2中嵌入更高效、轻量的瓶颈层模块,对番茄叶片病害进行检测,提高模型的检测速度,降低模型的参数量与计算量. 轻量化瓶颈结构虽然能够减少参数量和计算负担,但可能削弱特征提取能力,影响关键细节的捕获,进而降低整体精度. 李健等[3]利用MobileNetV3模型,引入CA注意力机制和ASGD优化器,借助迁移学习思想对番茄叶片病害进行检测,提高了模型分类的准确率. ASGD优化器需要存储每次更新的参数以便进行平均. 随着训练迭代次数的增加,这可能导致内存的使用量显著增加. 嵇春梅等[4]借助YOLOv8模型,引入GhostNetV2模块和双向加权特征金字塔,构建轻量化番茄病害检测模型,减少模型参数量和计算量,将检测速度提升至155帧/s. 所使用的数据集为自建数据集,且图片数量较少. 模型的性能需要在更大规模的公开数据集上进行进一步的验证. 刘拥民等[5]利用Mixup混合增强算法优化Swin-Transformer模型,对番茄叶片病害进行识别,优化后模型的检测准确率较其他检测模型得到提升. Mixup生成的新样本标签是按照线性组合生成的,这可能导致模型在训练时接触到模糊或不准确的标签,从而使模型在面对类别边界不明显或高度重叠的样本时,容易出现错判,导致检测任务中出现误报或漏报.

综上所述,大多数学者都使用基于锚框的目标检测模型,通过引入注意力机制、轻量化模块和卷积模块等进行改进. 一旦被检测物体的长宽比发生显著变化,基于锚框的网络结构检测效果就会变差[6]. 针对番茄叶片病斑尺寸和形状差异较大带来的检测挑战,本文采用无锚框算法CenterNet,通过优化算法特征融合部分,结合金字塔卷积PyConv计算多尺度感受野,以减少信息丢失. 引入多分支卷积RFB扩大感受野,提升目标特征提取的效果.

1. 数据集

选取的数据集来源于公开数据集PlantVillage[7]和公开数据平台Kaggle,涵盖了8种番茄病害叶片及健康番茄叶片,共计9个类别. 如图1所示,该数据集包含的番茄病害种类包括晚疫病、早疫病、潜叶虫病、叶霉病、花叶病毒病、斑枯病、红蜘蛛损伤病及黄化曲叶病毒病. 数据集包含4 126张图片,涵盖了不同的拍摄角度、光照条件和距离,以确保数据的多样性. 利用LabelImg软件,对以上的4 126张番茄叶片病害图像进行目标标注,按照8∶1∶1的比例进行划分,将数据集划分为训练集、验证集和测试集,形成可以用于完整训练测试的数据集.

图 1

图 1   番茄叶片病害

Fig.1   Tomato leaf disease


2. 番茄叶片病害的检测方法

2.1. CenterNet算法的原理

CenterNet是无锚框的目标检测模型,通过直接预测目标的中心点、宽高和类别来简化检测流程,无须预设锚框和非极大值抑制(NMS). CenterNet网络结构由主干网络、上采样解码和预测3部分组成.

主干网络支持Hourglass Network、DLANet和ResNet. 其中ResNet网络中的残差连接有效解决了梯度消失的问题,性能优于计算资源需求较高的Hourglass Network和结构复杂的DLANet. 本研究采用ResNet50. 上采样解码通过3次反卷积将特征图尺寸扩大8倍,生成高分辨率特征图. 预测部分包括热力图预测(判断物体存在及类别)、中心偏置预测(修正中心点位置)和宽高预测,实现对目标的精确定位与检测. CenterNet的结构如图2所示.

图 2

图 2   CenterNet的结构图

Fig.2   Structure diagram of CenterNet


2.2. CenterNet算法的改进

针对番茄叶片病害图像在复杂环境背景下识别效果不佳的问题,设计基于改进CenterNet算法的病害检测方法. 参考特征金字塔网络(FPN)的思想,构建融合注意力机制的特征融合网络,增强了模型跨尺度融合的能力. 在ResNet50主干网络中的残差块间引入多分支卷积(RFB)模块,扩大模型的感受野,增强对目标特征的关注. 将ResNet50网络中的所有卷积替换为金字塔卷积(PyConv),通过计算多尺度感受野,有效提升模型的检测精度. 改进后的网络结构如图3所示.

图 3

图 3   修改后的CenterNet网络结构

Fig.3   Modified CenterNet network structure


2.2.1. 融合注意力机制的特征融合网络

在CenterNet算法中,输入图像通过主干网络提取特征后,直接通过上采样模块进行目标检测. 这种方法虽然简化了模型结构和推理流程,但未能充分利用网络中不同层和不同尺度的特征. 在番茄叶片病害检测任务中,病害表现可能因尺度差异而不同,单一尺度特征的使用可能导致信息损失,从而影响检测性能.

参考特征金字塔网络(FPN)的思想,引入瓶颈注意力模块(BAM),构建特征融合网络(BFPN). 该网络在主干网络中将维度为16×16×2048的高层次特征与BAM机制结合后,与维度为32×32×1024的特征信息融合. 通过上采样模块,与维度为64×64×512的低层次特征进行融合,并重复此步骤,融合维度为128×128×256的特征信息. 通过上采样模块与解码器网络相连,增强了模型对多尺度特征的融合能力,从而有效提升了检测性能.

在番茄叶片病害的检测中,病害区域通常较小,目标特征提取困难,且复杂背景和光照变化会引入噪声干扰. 在特征融合部分引入BAM注意力机制,增强模型对关键特征的聚焦能力,提升检测的准确性. BAM[8]注意力机制对于输入的特征图,会生成3D注意力图,用来强调重要元素,推断3D注意力图的过程被分解为空间(spatial)和通道(channel)2个分支流程. BAM流程的结构图如图4所示. 其中,F为特征图,conv为卷积,Fc为通道向量,d为膨胀率,Mc(F)为通道特征图,Ms(F)为空间特征图,$ \oplus$表示求和,$ \otimes$表示逐元素乘法.

图 4

图 4   BAM流程结构图

Fig.4   Flow diagram of BAM process


在通道注意力分支中,每个通道会捕捉到特定的特征响应,从而突出关注点. 对特征图F进行全局平均池化,聚合每个通道特征,生成通道向量,有效地编码全局信息. 利用带隐含层的多层感知器(MLP)推断通道间的注意力关系,有效地学习它们的交互特征. 之后,在MLP输出后添加批量归一化层(BN),调整空间分支输出的尺度. 通道注意力的计算方法如下:

$ {M_{\text{c}}}({\boldsymbol{F}}) = {\mathrm{BN}}/({\mathrm{MLP}}({\mathrm{AvgPool}}({\boldsymbol{F}}))). $

在空间注意力分支中,主要目的是强调或抑制在不同空间位置的特征. 将特征FRC×H×W进行降维,将其投影到形状为RC/r×H×W的空间,这一步通过应用1×1卷积整合和压缩跨通道维度的特征映射. 使用与通道分支相同的衰减率r处理降维后的特征图,应用2个3×3膨胀卷积以有效利用上下文信息. 利用1×1卷积将特征简化为RH×W的空间注意力图. 在末端通过批量归一化层调整尺度,空间注意力的计算方法如下:

$ {M_{\mathrm{s}}}({\boldsymbol{F}}) = {\mathrm{BN}}(f_3^{1\times 1}(f_2^{3\times 3}(f_1^{3\times 3}(f_0^{1\times 1}({\boldsymbol{F}}))))). $

式中:f表示卷积运算,上标为卷积核大小. 从2个注意分支中获取通道注意Mc(F)和空间注意Ms(F)后,将它们组合生成最终的3D注意映射M(F). 计算方法如下:

$ M({\boldsymbol{F}}) = \sigma ({M_{\mathrm{c}}}({\boldsymbol{F}})+{M_{\mathrm{s}}}({\boldsymbol{F}})). $

式中:$\sigma $为激活函数.

2.2.2. RFB模块

在ResNet50主干网络中,通过4层残差块的跳跃连接,有效地改善了信息流动和梯度传递. 在番茄叶片病害检测的任务中,由于病害特征的多样性,固定的感受野限制了对不同尺度特征的捕捉能力,从而影响检测效果. 在第1层与第2层、第2层与第3层以及第3层与第4层的残差块之间引入多分支卷积模块RFB,用于扩大感受野,提升模型对目标特征的提取能力,增强对病害的检测效果. RFB模块的结构如图5所示.

图 5

图 5   RFB结构图

Fig.5   Structure diagram of RFB


图5所示,RFB[9]模块是借鉴Inception结构的多分支卷积架构,模拟人类视觉的特征提取能力. 该模块主要由2个关键组成部分构成:不同尺寸卷积核的多分支卷积层和膨胀(dilated)卷积层. 其中,不同大小的圆形表示不同尺寸的卷积核,每个卷积核负责提取特定尺度的特征. 较小的卷积核能够捕捉细微的特征,较大的卷积核更侧重于获取更广泛的上下文信息. 使用膨胀率为1、3、5的膨胀卷积,有助于扩大感受野,使网络能够捕捉更大范围的上下文信息. 将不同尺寸的卷积核和不同膨胀率的卷积层进行concat操作,达到融合多层次特征的目的,从而有效地提升模型在复杂场景中的特征提取能力.

2.2.3. 金字塔卷积PyConv

在ResNet50主干网络中,残差块通过多层卷积构建深层网络. 尽管残差连接解决了梯度消失的问题,但步幅和池化操作可能导致局部特征丢失. 对于番茄叶片病害这类小目标,细微变化可能因下采样而消失,并且随着卷积层加深,特征图中的细节信息逐渐压缩,最终特征图可能无法完整地保留关键信息. 引入金字塔卷积(PyConv),减少信息损失并增强多尺度特征提取,从而提升检测效果. PyConv的结构如图6所示. 其中,HW、FM分别为输出特征图的高度、宽度和特征图的通道数.

图 6

图 6   PyConv的结构图

Fig.6   Structure diagram of PyConv


PyConv[10]包含一个核金字塔,每一层包含不同类型的滤波器,滤波器的大小与深度可变,因此可以提取不同尺度的细节信息,减少信息损失. 如图6所示,卷积核从上到下依次增大,深度依次减小,为了使PyConv在不同层使用不同深度的卷积核,需要将输入特征划分为不同的组并独立地进行卷积计算. 假设PyConv输入包含Ci个通道数,每一层的卷积核尺寸为${{K_1^2}}, {{K_2^2}}, \cdots, {{K_n^2}}, {\mathrm{PyConv}}$的参数量与计算复杂度的计算公式如下.

$ \begin{split} {\mathrm{Para}} =& K_n^2 {C_{{\mathrm{o}}n}} \frac{{{{C_{\mathrm{i}}}{{K_1^2}}}}}{{{{K_n^2}}}}+\cdots +K_2^2 {C_{{\mathrm{o}}2}} \frac{{{{C_{\mathrm{i}}}{{K_1^2}}}}}{{{{K_2^2}}}}+\\&K_1^2 {C_{{\mathrm{o}}1}} {C_{\text{i}}},\end{split}$

$ {\mathrm{FLOP}}{\text{s}} = {\mathrm{Para}} (H W). $

式中:Ci$ {{{{C_{\mathrm{i}}}{{K_1^2}}}}}/{{{{K_2^2}}}} $$\cdots , $$ {{{C_{\mathrm{i}}}{{K_1^2}}}}/{{{{K_n^2}}}} $为深度,Co1,Co2$,\cdots , $Con为输出特征维度.

Co1+Co2$+\cdots + $ Con = Co,且在PyConv中如果每一层输出的通道数相同,那么每一层的参数量与计算复杂度分布会比较均匀. 执行Co个相同分辨率与深度的卷积核,得到FMo个输出特征. 标准卷积参数量与计算复杂度的计算公式如下:

$ {\mathrm{Para}} = {K^2} {C_{\mathrm{i}}} {C_{\mathrm{o}}}, $

$ {\mathrm{FLOP}}{\text{s}} = K{}^2 {C_{\mathrm{i}}} {C_{\mathrm{o}}} (H W). $

式中:K2为卷积核的空间分布率.

综上所述,PyConv与标准卷积在参数量和计算复杂度上相近. 在主干网络中引入PyConv,可以在保持参数量和计算复杂度的基础上,使网络在特征提取阶段更加关注多尺度信息的提取,避免多层卷积操作可能带来的信息损失,提高模型的检测精度.

2.2.4. 随机非结构化剪枝优化策略

在ResNet50主干网络中,堆叠残差块构建深层网络时引入大量的卷积层. 为了提高检测精度,引入金字塔卷积(PyConv)和多分支卷积模块(RFB),导致卷积层数显著增加,从而大幅提升了参数量和计算量. 采用随机非结构化剪枝方法,对骨干网络中的卷积层进行剪枝,去除冗余权重,以缓解新增模块对模型复杂度的负面影响.

随机非结构化剪枝(random unstructured pruning)是训练后对神经网络权重进行剪枝的技术,通过去除冗余权重来降低模型参数量和计算复杂度. 针对骨干网络中的卷积层实施剪枝,在模型遍历的过程中,根据设定的剪枝比例,随机将权重矩阵中相应比例的权重置零. 被置零的权重不再参与计算,从而减少模型的计算负担. 该方法在保持模型核心性能的同时,显著降低了计算资源消耗,且剪枝操作对各层独立进行,确保了操作的灵活性和可扩展性. 剪枝后,模型通过再训练来恢复剪枝带来的性能损失. 通过继续训练模型,调整权重适应剪枝后的稀疏结构.

3. 实验结果与分析

3.1. 实验环境和评价指标

训练和测试均在同一环境下进行,本实验训练和测试的配置如下:CPU为12vCPUIntel(R)Xeon(R)Platinum8352VCPU@2.10 GHz,显存为24 GB, GPU为RTX4090,软件环境为Windows10,64位,pytorch1.11.0,Cuda11.3版本,python3.8.10版本. 训练参数如下:迭代次数为300,学习率为0.0005,训练批次数为32.

采用准确率P、召回率R、mAP和F1分数作为评价指标. mAP为各类别平均精度AP的均值,AP是P-R曲线下的面积,反映模型的检测性能,面积越大,性能越优. 其中,mAP50表示IoU阈值为0.5时的AP均值,mAP50:95表示IoU阈值为0.5~0.95时以0.05为步长的AP均值. F1分数是精确率与召回率的调和平均数,用于评估分类模型的性能.

3.2. 融合注意力机制的特征融合模块消融

为了验证提出的融合注意力机制的特征融合模块的有效性,设计注意力机制与特征融合模块的消融实验. 在实验中选取SE[11]注意力机制、CBAM[12]注意力机制和ELA[13]注意力机制,与提出的BAM注意力机制进行对比,实验结果如表1所示.

表 1   融合注意力机制的特征融合模块消融实验

Tab.1  Ablation study on feature fusion module with attention mechanism

模型
Model
P/%R/%mAP50/
%
mAP50:95/%F1
CenterNet95.561.082.069.80.71
CenterNet+FPN96.367.582.769.70.78
CenterNet+FPN+BAM96.968.685.072.10.79
CenterNet+FPN+SE96.166.479.267.50.66
CenterNet+FPN+CBAM97.058.281.669.30.68
CenterNet+FPN+ELA95.364.382.370.20.75

新窗口打开| 下载CSV


表1所示,在添加特征融合模块后,模型能够更有效地利用不同层次的信息,检测的准确率和召回率分别提高了0.8%和6.5%. 召回率的提升表明,模型在识别正样本方面的能力显著增强. 在添加SE注意力机制后,所有指标均出现下降. 尽管添加CBAM注意力机制时准确率有所提升,但其他指标下降. 在加入ELA注意力机制后,除了mAP50:95指标外,其余指标均有不同程度的下降. 相比之下,在添加BAM注意力机制后,召回率、mAP50和mAP50:95分别提升了1.1%、2.3%和2.4%,且准确率有所提高. 综上所述,选择BAM注意力机制,使得模型可以更好地关注目标特征,提升网络检测的准确性.

3.3. 消融实验

为了验证提出算法改进的有效性,设计消融实验,实验结果如表2所示. 其中,Np为参数量,FLOPs为每秒浮点运算次数. 可知,通过实验1与实验6的对比表明,改进后的算法在各项指标上较原始模型都得到了提升,且召回率大幅度提升,这一结果表明模型在识别正样本方面的能力显著增强. 在实验2和实验3中,加入了融合注意力机制的特征融合模块,显著增强了模型对低层次和高层次信息的融合能力,提升了模型对跨尺度信息的关注度,进一步提高了检测精度. 在实验3的基础上引入RFB模块,扩大了感受野,使得骨干网络能够更好地关注并提取目标特征,与实验3相比,mAP50、mAP50:95R分别提升了0.6%、1.1%和1.7%. 通过对比实验5、6可以看出,尽管在进行剪枝操作后模型的准确率略有下降,但模型的参数量和计算量显著减少,R、mAP50、mAP50:95F1分数等性能指标都有所提升. 虽然剪枝后的计算量高于改进前模型的计算量,但这一剪枝操作在一定程度上解决了由引入模块所导致的计算量增加的问题,从而提高了模型在硬件资源受限场景中的适用性.

表 2   不同改进点组合的消融实验

Tab.2  Ablation experiment on different combination of improvement point

实验编号
FPNBAMRFBPyConv剪枝P/%R/%mAP50/%mAP50:95/%F1Np/106FLOPs/109
1×××××95.561.082.069.80.7132.6770.22
2××××96.367.582.769.70.7832.6770.22
3×××96.968.685.072.10.7933.9370.58
4××97.070.385.673.20.8140.83103.08
5×96.976.989.076.80.8540.19102.74
696.380.291.478.70.8730.8084.37

新窗口打开| 下载CSV


图7所示为消融实验中模型损失函数的下降趋势. 其中,Ni为迭代次数,L为损失值.随着迭代次数的增加,损失函数都趋于收敛,本文算法表现出最低的损失. 每添加一个模块,模型的损失都有所降低,且收敛速度加快,模型性能逐步提升,进一步证明了本文算法改进的合理性.

图 7

图 7   消融实验的模型损失曲线

Fig.7   Model loss curve of ablation experiment


3.4. 热力图与可视化结果的对比

在目标检测中,热力图用于展示模型对目标位置及置信度的预测. CenterNet会生成关键点热力图,用于表示目标中心点的位置. 如图8所示为改进前、后模型生成的热力图对比. 可以看出,在早疫病中,原始CenterNet模型错误地检测到了左侧叶片中的病害,热力图上呈现出明显的热力点,但实际上该叶片是健康的. 相较之下,改进后的模型成功识别出该叶片的健康状态,仅在对应区域生成了微弱的热力响应. 在叶霉病的检测中,原始模型错误地将右侧土地上的落叶与杂草识别为病害,并生成了热力点,未能有效地克服自然环境带来的干扰. 改进后的模型克服了这些干扰,准确地生成了热力点.

图 8

图 8   改进前、后生成的热力图对比

Fig.8   Comparison of heatmap before and after improvement


图9所示为改进前、后模型在9种病害检测中的可视化对比. 图9(a)中,改进后的模型在晚疫病、花叶病毒病、潜叶虫病和健康叶片4类病害的检测中展现了更高的准确性,提升了病害检测的置信度. 图9(b)中,原CenterNet模型漏检了3种病害,而改进后的模型成功检测出斑枯病图像左下角叶片、红蜘蛛损伤病图像右上角叶片及叶霉病图像中间叶片的病害,解决了漏检问题. 图9(c)中,CenterNet模型在早疫病和黄化曲叶病毒病的检测中出现了错检问题:早疫病检测中错误地将左侧叶片的病害检测为潜叶虫病,黄化曲叶病毒病检测中将左下角健康叶片误判为有病害. 改进后的模型准确检测出了所有病害,避免了错检问题.

图 9

图 9   改进前、后病害检测的可视化对比

Fig.9   Visual comparison of disease detection before and after improvement


3.5. 不同网络模型性能的对比试验

为了验证提出算法改进的有效性,选取CenterNet[14]、YOLOv7[15]、YOLOv8[16]、ResNxt[17]、RT-DETR[18]和YOLOv5[19]共6种网络模型.所有模型均在相同的训练环境下,使用同一数据集进行对比实验,对比试验结果如表3所示.

表 3   不同网络模型的性能对比试验

Tab.3  Performance comparison experiment of different network model

模型P/
%
R/
%
mAP50/
%
mAP50:95/
%
F1
CenterNet95.561.082.069.80.71
YOLOv586.281.289.871.20.83
YOLOv784.381.589.073.10.83
YOLOv885.079.488.674.60.82
ResNxt86.679.388.471.20.83
RT-DETR85.673.582.569.20.79
本文算法96.380.291.478.70.87

新窗口打开| 下载CSV


表3所示,改进后的算法在准确率上优于其他所有模型. 与YOLO系列模型相比,本文算法在mAP50:95和mAP50指标上显著优于3个YOLO模型. 这表明本文算法在多个IoU阈值下表现出色,能够在较低的IoU阈值时准确检测目标,在较高的IoU阈值时保持精确的目标定位能力. 与非YOLO系列的RT-DETR和ResNxt模型相比,本文算法展示了竞争优势,在mAP50和mAP50:95方面,本文算法的表现都超过了这2种模型,且在F1分数上取得了优势. 这些结果表明,提出算法具备更强的目标识别能力,验证了提出算法改进的合理性与有效性.

3.6. 模型泛化实验

为了验证提出的改进模型具备良好的泛化能力,选取JBNU计算机科学与工程系AI实验室公开的草莓病害数据集[20]及CCTSDB交通标志数据集进行泛化实验. 测试模型在不同场景下的适用性,泛化实验结果如表4所示.

表 4   模型在不同数据集上的检测结果

Tab.4  Detection result of model on different dataset

模型数据集P/
%
R/
%
mAP50/
%
F1
CenterNet草莓病害94.479.889.30.86
CenterNetCCTSDB交通标志93.778.287.90.85
本文算法草莓病害95.387.191.80.91
本文算法CCTSDB交通标志94.386.990.30.90

新窗口打开| 下载CSV


表4可知,提出的算法在草莓病害数据集上的检测效果显著优于CenterNet算法. 在召回率和mAP50方面均有明显提升. 实验结果进一步证明,提出的模型在农作物叶片病害的检测方面具有良好的泛化性. 在面对不同背景的情况下,提出的模型在CCTSDB交通标志数据集上的识别效果优于CenterNet算法,这表明本文模型具备较强的自适应特征能力和一定的通用性,可以适用于其他领域的应用.

4. 结 语

本文针对CenterNet算法在特征融合和多尺度特征提取方面的不足,提出融合注意力机制的特征融合模块. 引入RFB模块,以扩大模型感受野,增强目标特征的表达能力. 利用金字塔卷积操作减少信息损失,有效提升了多尺度特征提取的性能. 为了控制模型复杂度,设计相应的剪枝策略. 改进后的模型在病害检测任务上的准确率达到96.3%,性能优于其他主流模型,且在各项评价指标上均展现出显著优势. 尽管模型的性能优异,但参数量和计算复杂度有待进一步的优化. 未来工作将重点探索轻量化策略,提升模型的实用性和运行效率.

参考文献

王会征, 孙良晨, 李新龙, 等

基于改进YOLOv7-tiny的番茄叶片病虫害检测方法

[J]. 农业工程学报, 2024, 40 (10): 194- 202

[本文引用: 1]

WANG Huizheng, SUN Liangchen, LI Xinlong, et al

Tomato leaf disease and pest detection method based on improved YOLOv7-tiny

[J]. Transactions of the Chinese Society of Agricultural Engineering, 2024, 40 (10): 194- 202

[本文引用: 1]

刘佳明, 张欣, 陈孝玉龙, 等

基于改进MobileNetV2的番茄病害识别研究

[J]. 南京农业大学学报, 2025, 48 (3): 724- 733

[本文引用: 1]

LIU Jiaming, ZHANG Xin, CHEN Xiaoyulong, et al

Research on tomato disease recognition based on improved MobileNetV2

[J]. Journal of Nanjing Agricultural University, 2025, 48 (3): 724- 733

[本文引用: 1]

李健, 王晨, 马振宇, 等. MobileNet-CAL: 基于迁移学习和注意力机制的番茄病虫害分类方法[EB/OL]. [2025-08-22]. https://doi.org/10.13229/j.cnki.jdxbgxb.20230828.

[本文引用: 1]

嵇春梅, 周鑫志, 叶烨华. 自然场景下的轻量化番茄病害检测模型[EB/OL]. [2025-08-22]. https://link.cnki.net/urlid/32.1148.s.20241009.0833.002.

[本文引用: 1]

刘拥民, 刘翰林, 石婷婷, 等

一种优化的Swin Transformer番茄叶片病害识别方法

[J]. 中国农业大学学报, 2023, 28 (4): 80- 90

[本文引用: 1]

LIU Yongmin, LIU Hanlin, SH Tingting, et al

An optimized Swin Transformer-based method for tomato leaf disease recognition

[J]. Journal of China Agricultural University, 2023, 28 (4): 80- 90

[本文引用: 1]

王海瑞, 赵江河, 吴蕾, 等

针对CenterNet缺点的安全帽检测算法改进

[J]. 湖南大学学报: 自然科学版, 2023, 50 (8): 125- 133

[本文引用: 1]

WANG Hairui, ZHAO Jianghe, WU Lei, et al

Improvement of a hard hat detection algorithm addressing the shortcomings of CenterNet

[J]. Journal of Hunan University: Natural Sciences, 2023, 50 (8): 125- 133

[本文引用: 1]

BRAHIMI M, BOUKHALFA K, MOUSSAOUI A

Deep learning for tomato diseases: classification and symptoms visualization

[J]. Applied Artificial Intelligence, 2017, 31 (4): 299- 315

[本文引用: 1]

PARK J, WOO S, LEE J, et al

A simple and light-weight attention module for convolutional neural networks

[J]. International Journal of Computer Vision, 2020, 128 (4): 783- 798

DOI:10.1007/s11263-019-01283-0      [本文引用: 1]

LIU S, HUANG D, WANG Y. Receptive field block net for accurate and fast object detection [C]//Proceedings of the European Conference on Computer Vision. Munich: Springer, 2018: 385−400.

[本文引用: 1]

DUTA I, LIU L, ZHU F, et al. Pyramidal convolution: rethinking convolutional neural networks for visual recognition [EB/OL]. (2021-09-28). https://arxiv.org/abs/2006.11538.

[本文引用: 1]

HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132−7141.

[本文引用: 1]

WOO S, PARK J, LEE J, et al. CBAM: convolutional block attention module [C]//European Conference on Computer Vision. Cham: Springer, 2018: 3−19.

[本文引用: 1]

ZHANG H, GOODFELLOW I, METAXAS D, et al. Self-attention with efficient local attention [EB/OL]. (2021-09-28). https://arxiv.org/abs/1907.09190.

[本文引用: 1]

DUAN K, BAI S, XIE L, et al. CenterNet: keypoint triplets for object detection [C]//IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 6568−6577.

[本文引用: 1]

WANG C, BOCHKOVSKIY A, LIAO H. YOLOv7: trainable bag-of-freebies sets new state-of-the-art for real-time object detectors [C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 7464−7475.

[本文引用: 1]

刘鹏, 张天翼, 冉鑫, 等. 基于PBM-YOLOv8的水稻病虫害检测[J]. 农业工程学报, 2024, 40(20): 147−156.

[本文引用: 1]

LIU Peng, ZHANG Tianyi, RAN Xin, et al. Detection of rice diseases and pests based on PBM-YOLOv8 [J/OL]. Transactions of the Chinese Society of Agricultural Engineering, 2024, 40(20): 147−156.

[本文引用: 1]

BATTULA B, ASHOK B, SPICA G, et al

Parkinson's disease detection using modified ResNext deep learning model from brain MRI images

[J]. Soft Computing, 2023, 27 (16): 11905- 11914

DOI:10.1007/s00500-023-08535-9      [本文引用: 1]

ZHAO Y, LV W, XU S, et al. DETRs beat YOLOs on real-time object detection [EB/OL]. (2023-04-17). https://arxiv.org/abs/2304.08069.

[本文引用: 1]

宋耀莲, 王粲, 李大焱, 等

基于改进YOLOv5s的无人机小目标检测算法

[J]. 浙江大学学报: 工学版, 2024, 58 (12): 2417- 2426

[本文引用: 1]

SONG Yaolian, WANG Can, LI Dayan, et al

An improved YOLOv5s-based drone small target detection algorithm

[J]. Journal of Zhejiang University: Engineering Science, 2024, 58 (12): 2417- 2426

[本文引用: 1]

AFZAAL U, BHATTARAI B, PANDEYA Y, et al

An instance segmentation model for strawberry diseases based on mask R-CNN

[J]. Sensors, 2021, 21 (19): 6565

DOI:10.3390/s21196565      [本文引用: 1]

/