基于MA-ConvNext网络和分步关系知识蒸馏的苹果叶片病害识别

doi:10.3785/j.issn.1008-973X.2024.09.001

基于MA-ConvNext网络和分步关系知识蒸馏的苹果叶片病害识别

刘欢^,, 李云红^,, 张蕾涛, 郭越, 苏雪平, 朱耀麟, 侯乐乐

1. 西安工程大学电子信息学院，陕西西安 710048

2. 山西大学生命科学学院，山西太原 030031

Identification of apple leaf diseases based on MA-ConvNext network and stepwise relational knowledge distillation

LIU Huan^,, LI Yunhong^,, ZHANG Leitao, GUO Yue, SU Xueping, ZHU Yaolin, HOU Lele

1. School of Electronics and Information, Xi’an Polytechnic University, Xi’an 710048, China

2. School of Life Science, Shanxi University, Taiyuan 030031, China

通讯作者: 李云红，女，教授，博士. orcid.org/0000-0001-8080-1040. E-mail: hitliyunhong@163.com

收稿日期: 2024-05-10

基金资助:

国家自然科学基金资助项目（62203344）；陕西省自然科学基础研究重点资助项目（2022JZ-35）；陕西高校青年创新团队资助项目.

Received: 2024-05-10

Fund supported:

国家自然科学基金资助项目（62203344）；陕西省自然科学基础研究重点资助项目（2022JZ-35）；陕西高校青年创新团队资助项目.

作者简介 About authors

刘欢（2000—），女，硕士生，从事图像处理研究.orcid.org/0009-0004-2491-8358.E-mail：huanlabc@163.com , E-mail：huanlabc@163.com

摘要

针对复杂环境下苹果叶片病害图像背景杂乱、病斑大小不一，以及现有模型参数多、计算量大的问题，提出基于注意力和多尺度特征融合的苹果叶片病害识别网络(MA-ConvNext). 通过引入多尺度空间通道重组块(MSCB)和融合三分支注意力机制的特征提取模块(TAFB)，有效提取苹果叶片病害图像不同尺度的特征，增强模型对叶片病斑的关注. 采用分步关系知识蒸馏方法，将“教师”网络(MA-ConvNext)和“中间”网络(DenseNet121)融合，指导“学生”网络(EfficientNet-B0)训练，实现模型轻量化. 实验结果表明，MA-ConvNext网络识别准确率为99.38%，较ResNet50、MobileNet-V3和EfficientNet-V2网络分别提高了3.98个百分点、7.55个百分点和4.27个百分点. 经过分步关系知识蒸馏后，识别准确率较蒸馏前提高了1.76个百分点，并且具有更小的网络规模和参数量，分别为1.56×10⁷、5.29×10⁶. 所提方法能为后续精准农业的病虫害检测提供新思路和技术支持.

关键词： 苹果叶片病害识别 ; 注意力 ; 多尺度特征融合 ; 分步关系 ; 知识蒸馏

Abstract

The backgrounds are cluttered, the spot sizes of apple leaf disease are varying in complex environments, and the existing models have the problems of multiple parameters and a large amount of calculation. Thus, an apple leaf disease recognition network, ConvNext network based on attention and multiscale feature fusion (MA-ConvNext), was proposed. A multiscale spatial reconstruction and channel reconstruction block (MSCB) and a feature extraction block with triplet attention fusion (TAFB) were utilized to effectively extract the features at different scales and enhance the focus on leaf disease spots. Additionally, a stepwise relational knowledge distillation method was employed to fuse the "teacher" network (MA-ConvNext) with an "intermediate" network (DenseNet121) to guide the training of the "student" network (EfficientNet-B0) and achieve the model lightweighting. Experimental results showed that MA-ConvNext achieved a recognition accuracy of 99.38%, improving by 3.98 percentage points, 7.55 percentage points and 4.27 percentage points compared to ResNet50, MobileNet-V3, and EfficientNet-V2 networks, respectively. After the stepwise relational knowledge distillation, the recognition accuracy further improved by 1.76 percentage points, with a smaller network size and parameters of 1.56×10⁷ and 5.29×10⁶. respectively. The proposed method offers new insights and technical support for the precise detection of pests and diseases in agriculture.

Keywords： apple leaf disease identification ; attention ; multiscale feature fusion ; stepwise relationship ; knowledge distillation

PDF (5637KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

刘欢, 李云红, 张蕾涛, 郭越, 苏雪平, 朱耀麟, 侯乐乐. 基于MA-ConvNext网络和分步关系知识蒸馏的苹果叶片病害识别. 浙江大学学报(工学版)[J], 2024, 58(9): 1757-1767 doi:10.3785/j.issn.1008-973X.2024.09.001

LIU Huan, LI Yunhong, ZHANG Leitao, GUO Yue, SU Xueping, ZHU Yaolin, HOU Lele. Identification of apple leaf diseases based on MA-ConvNext network and stepwise relational knowledge distillation. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(9): 1757-1767 doi:10.3785/j.issn.1008-973X.2024.09.001

苹果叶片病害的准确识别对于精准农业至关重要，可以帮助农民及时采取措施，减少损失并提高产量^[1]. 然而，复杂环境下的苹果叶片病害识别面临着诸多挑战，包括图像背景杂乱、病斑大小不一，以及模型参数多、不能流畅运用于识别系统等问题^[2-3]. 现有的苹果叶片病害识别方法主要基于卷积神经网络( convolutional neural network ，CNN)，但其在复杂环境下的识别准确率往往较低，这是因为CNN难以从病斑中提取细致的特征，并且模型参数过多，导致计算成本高、部署困难. 因此，研究轻量化、高效率的苹果叶片病害识别方法，对于推动精准农业发展和保障苹果产量至关重要.

目前，苹果叶片病害识别存在数据集样本获取困难、样本数量不充足的问题. 盛帅等^[4]提出Dynamic-YOLOX模型，通过关注深层语义特征抑制无用信息，构建了复杂背景下苹果叶部6种常见病害的数据集. 李佼隆^[5]利用改进的leafGAN网络对图像进行数据增强，通过LFLSeg无标签叶片分割模块确定图像病害区域，有效扩充了各作物病害叶片图像数据集. 李云红等^[6]提出CycleGAN-IA数据增强方法，使用CycleGAN网络扩充样本特征，并利用仿射变换提高样本空间复杂度，解决了原始样本不足的问题.

基于深度学习技术的病虫害识别方法已经在番茄^[7]、玉米^[8]、马铃薯^[9]、水稻^[10]以及大豆^[11]等方面取得显著成果. Lee等^[12]使用卷积神经网络识别植物种类，并对44个类别植物叶片进行训练识别，证明了使用卷积神经网络比使用传统识别方法识别效果更好. Sladojevic等^[13]将深度神经网络和数据增强技术结合，提高了对13种常见植物叶片的病害识别效果，准确率达到了96.3%. Brahimi等^[14]使用Plant Village数据集中的部分图像作为研究对象，运用迁移学习方法对番茄叶片病害进行识别，证明GoogLeNet网络识别效果更好. Ferentinos^[15]使用PlantVillage数据集作为研究对象，使用5种经典的CNN网络设计对比实验，结果表明VGG网络模型识别准确率最高. Hassan等^[16]使用轻量化的MobileNetV2模型作为基础网络，改用深度可分离卷积减少参数量，该模型可以较好地分类38种叶片病害. 以上研究在一定程度上提高了农作物病害识别的准确率，但在模型复杂度、计算成本和实际场景部署方面仍存在不足.

为了解决这些问题，研究人员致力于轻量化模型，以便在资源有限的环境中部署叶片病害识别模型. 彭玉寒等^[17]提出轻量级农作物叶片病害识别模型RLDNet，利用MobileNetV2网络重参数化倒残差模块提升推理速度，并通过剪枝方法减小模型参数量. 李大华等^[18]提出改进的ShuffleNet V2模型，通过SA-stage模块在关注叶片特征的同时减小参数量和计算量，同时利用LFN轻量化特征融合模块实现上下文信息交互，改进后的网络准确率为96.55%，权重大小为1.51 MB. Chen等^[19]提出轻量级注意力水稻病害识别网络，通过增加注意机制来学习通道间关系和空间点对输入特征的重要性，所提出的方法在公开数据集上的平均识别准确率达到99.67%.

综上所述，在复杂背景下，苹果叶片病害识别仍面临着2大挑战. 一方面，复杂背景下的苹果叶片病害数据集获取困难，数据样本不足和不均衡问题限制了模型性能的提升. 另一方面，现有的苹果病害识别模型具有较高的复杂度，模型在训练过程中需要大量的计算资源，导致计算成本增加，同时也增加了模型的部署难度. 针对以上问题，本研究将图像增强方法与农作物病害识别方法相结合，构建出轻量且高效的苹果叶片病害识别网络模型. 通过采用CycleGAN-IA方法对样本数据进行增强，利用改进的多尺度融合模块提取苹果叶片病害细节特征，引入融合三分支注意力机制的特征提取模块提升模型对叶片病斑的注意力，并运用分步关系知识蒸馏方法减少模型参数，能在提高准确率的同时实现模型的轻量化.

1. 数据集和MA-ConvNext网络

1.1. 数据集构建

原始数据集采用Kaggle官网提供的复杂环境下的苹果叶片病害图像，该数据集是在苹果种植园内部，在多种光照、湿度和温度变化的自然环境条件下采集得来的. 由于复杂环境下苹果叶片病害图像获取困难且成本较高，数据集样本数量少、类间数量差距大，使得训练过程中易发生过拟合现象. 因此，采用CycleGAN-IA^[6]方法对原始数据集进行数据增强和扩充处理，将处理后的数据集作为后续实验的研究对象. 该数据集包含常见的3种苹果叶片病害(黑腐病、锈病、疮痂病)以及健康叶片图像，如图1所示.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 苹果叶片病害图像

Fig.1 Images of apple leaf disease

数据扩充前苹果叶片图像数量共为3664张，经过扩充后的图像数量达到24112张，较原始数据扩增至六倍多，同时扩充后的图像包含更多样化的视角和条件下的图像，使得训练模型能更全面地识别苹果叶片的不同病害. 数据集参数如表1所示. 表中，Apple为原始数据集，Apple-IA为扩充后数据集，N为数据集中图像数量.

表 1 苹果叶片病害数据集参数

Tab.1 Paramaters of apple leaf disease dataset

病害类型	N
病害类型	Apple	Apple-IA
黑腐病	888	7284
锈病	547	4276
疮痂病	944	6384
健康叶片	1285	6168
总数	3664	24112

新窗口打开| 下载CSV

1.2. MA-ConvNext网络结构

为了解决复杂环境下苹果叶片病害图像背景杂乱、病斑大小不一和病害识别准确率低的问题，将注意力机制和多尺度特征融合方法相结合，提出MA-ConvNext（ConvNext network based on attention and multiscale feature fusion）网络模型，如图2所示. 图中，dim为通道维度. 该模型由多尺度空间通道重组块 (multiscale spatial reconstruction and channel reconstruction block，MSCB)和融合三分支注意力机制的特征提取模块(feature extraction block with triplet attention fusion ，TAFB)组成，旨在提取苹果叶片病害细节特征和增强对病斑区域的关注. 具体步骤如下：首先将尺寸为224×224×3的苹果叶片病害图像输入网络，经过大小为4×4的卷积层扩充数据维度；然后利用MSCB模块提取不同尺度的特征并进行融合，再结合TAFB模块定位病斑区域，突出与病害相关的特征，抑制无关背景信息；最后，通过全局平均池化层和线性归一化层，有效识别复杂背景下的苹果叶片病害，从而提高病害识别准确率.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 MA-ConvNext网络结构图

Fig.2 MA-ConvNext network structure diagram

1.3. 改进的多尺度特征融合模块

为了充分提取苹果叶片病害图像的细节特征，设计了多尺度空间通道重组块(MSCB)，如图2虚线框图所示. 该模块利用不同大小的卷积核(1×1、3×3、2个3×3)改变不同分支的感受野，以提取不同尺度的特征信息，并在不同分支上增加空间和通道重建卷积模块(spatial and channel reconstruction convolution, ScConv)，以减少标准卷积中的空间和通道特征冗余.

ScConv是在卷积操作中引入空间重建(spatial reconstruction unit, SRU)和通道重建(channel reconstruction unit, CRU)模块结构图如图3所示. 图中，αC和（1−α）C表示在通道C中，通过系数α和 1−α进行通道分割；X_up和 X_low 分别表示通过 1×1 卷积层得到的特征图的高频和低频部分； S₁和 S₂表示从 Y₁和 Y₂中提取的特征，通过 Pooling 操作得到；β₁和 β₂表示归一化后的系数，用于对 S₁和 S₂进行加权；γ_i表示归一化后的缩放参数；w_i表示权重参数；W₁和W₂表示空间重建的权重矩阵；${\boldsymbol{X}}_1^{\mathrm{w}} $和${\boldsymbol{X}}_{11}^{\mathrm{w}} $表示通过不同操作生成的空间特征. SRU由分离和重构2部分组成，如图3上半部分所示，首先利用通道信息权重将空间特征分隔开来，然后通过交叉相加的方式重构分离的特征，以增强原始特征的信息流，从而丰富和细化空间特征. CRU包括分裂、变换和融合3个部分，如图3下半部分所示，它将输入特征图分为2个通道，对每个通道进行卷积运算并输出，然后对输出的特征进行池化以获得权重β₁和β₂，最终将2个通道融合，以实现对输入特征通道的精细处理.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 ScConv网络结构图

Fig.3 ScConv network structure diagram

1.4. 融合三分支注意力机制的特征提取模块

为了准确识别复杂背景中的苹果叶片病斑，提出融合三分支注意力机制的特征提取模块(TAFB)，如图4所示. 该模块由多个ConvNext块堆叠而成，在每个块之间添加额外的残差单元结构，并嵌入三分支注意力(triplet attention, TA)，TA能够跨通道维度dim、高度H和宽度W捕捉信息. 这种设计能够增强模型对病害图像前景和背景的区分能力，从而将注意力更精准地集中在叶片病斑上.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 TAFB模块结构图

Fig.4 TAFB module structure diagram

2. 分步关系知识蒸馏

2.1. 分步关系知识蒸馏网络结构

为了解决网络模型参数多、计算量大，系统容易卡顿甚至死机的问题，设计了分步关系知识蒸馏模型，如图5所示. 采用MA-ConvNext网络、DenseNet121网络和EfficientNet-B0网络分别作为“教师”网络、“中间”网络和“学生”网络，通过从“教师”网络提取关键信息，进而传递给“学生”网络，实现数据实例之间的转化.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 分步关系知识蒸馏网络结构

Fig.5 Structure of stepwise relational knowledge distillation network

该模型利用距离和角度2种蒸馏损失来优化学习过程，通过给予距离和角度结构信息不同的权重，实现2种函数共同监督，以此来训练“学生”网络，让“学生”在学习更深层次、更细节信息的同时，指导轻量化模型，在减少模型参数的同时也能提高病害识别的效果.

分步关系知识蒸馏函数通过从“教师”网络获得距离或者角度结构信息作为监督矩阵来训练“学生”网络，其损失函数如下：

(1)$ {L_1} = \sum\limits_{({x_1}, \cdots ,{x_n}) \in {X^n}} {l\left( {\phi \left( {{t_1},\cdots,{t_n}} \right),\phi \left( {{s_1},\cdots,{s_n}} \right)} \right)} . $

式中：Xⁿ表示从集合X中选取n个元素组成的有序对，x₁,···,x_n表示不同批次当中的n个样本，t₁,···,t_n表示“教师”网络中不同批次的输出，s₁,···,s_n表示“学生”网络中不同批次的输出，${\phi _{}}$表示关系势函数，l为损失函数.

当使用距离关系函数作为势函数时，将每个批次中的样本进行两两分组，计算其欧几里得距离，计算式如下：

(2)$ {\phi _{\mathrm{d}}}\left( {{t_i},{t_j}} \right) = \frac{1}{\mu }{\left\| {{t_i} - {t_j}} \right\|_2};\;i \ne j. $

式中：(t_i, t_j)表示一个批次中分成的二元组；μ表示距离的正则化参数，用于关联同批次中其他二元组的距离. μ的表达式如下：

(3)$ \mu = \frac{1}{{\left| {{X^2}} \right|}}\sum\limits_{\left( {{x_1},{x_2}} \right) \in {X^2}} {\left({t_i} - {t_{j'}} \right);\;i \ne j' \ne k} . $

式中：X²表示集合X的笛卡尔积.

通过计算，可以得到一个距离矩阵，包含了本批次中每一组样本的距离关系，作为须传递的距离结构信息，此时损失函数如下：

(4)$ {L_{{\mathrm{rkd - d}}}} = \sum\limits_{({x_i},{x_j}) \in {X^n}} {{l_\delta }\left( {{\phi _{\mathrm{d}}}\left( {{t_i},{t_j}} \right),{\phi _{\mathrm{d}}}\left( {{s_i},{s_j}} \right)} \right)} . $

式中：(x_i, x_j)表示本批次中的二元组，${l_\delta }$表示Smooth L1损失. “学生”网络通过该损失函数学习两两样本间的距离结构信息，以此实现知识蒸馏.

当使用角度关系函数作为势函数时，将每个批次中的样本划分为3个分组，并计算其角度，用来表示3个样本在输出空间中形成的角度，计算式如下：

(5)$ \left.\begin{array}{l}\phi_{\mathrm{d}}\left(t_i, t_j, t_k\right)=\cos\; \alpha=\left\langle e^{i j}, e^{k j}\right\rangle;\; i \neq j \neq k. \\ e^{i j}=\dfrac{t_i-t_j}{t_i-t_{j^{\prime}}},\;\;\;\; e^{k j}=\dfrac{t_k-t_j}{t_k-t_{j^{\prime}}} .\end{array}\right\} $

式中：(t_i, t_j, t_k)表示一个批次中分成的三元组，$ \alpha $表示每个三元组角度大小. 通过对每一个三元组做角度计算，得到角度矩阵，用于存放更高阶的角度信息，此时损失函数如下：

(6)$ {L_2} = \sum\limits_{({x_i},{x_j},{x_k}) \in {X^n}} {{l_\delta }\left( {{\phi _{\mathrm{a}}}\left( {{t_i},{t_j},{t_k}} \right),{\phi _{\mathrm{d}}}\left( {{s_i},{s_j},{s_k}} \right)} \right)} . $

式中：(x_i, x_j, x_k)表示本批次中的三元组，$\phi_{\mathrm{a}} $表示余弦距离. “学生”网络通过该损失函数学习每个三元组在空间中输出的角度信息来实现蒸馏. 相比于其他传递关系，角度关系函数的传递更高效，也可以在训练过程中给“学生”网络提供更多的灵活性.

2.2. “教师”模型

“教师”网络选用本研究训练好的MA-ConvNext网络，由于该网络模型较大、参数较多，不适合迁移到系统或移动设备上，因此选取该网络作为“教师”网络.

2.3. “中间”网络

由于DenseNet121网络具有较好的特征复用能力，可以用于指导“学生”网络学习，因此，选择该网络作为“中间”网络. 如表2所示，S_I表示输入大小，S_C为卷积核大小，S为步长，S_O表示输出大小. 该网络由密集连接模块和过渡层组成，密集连接模块的每层输入都包含了前面所有层的特征信息，通过该模块进行特征提取可以有效加强特征的传播和利用，提高特征提取的丰富性，同时引入大小为1×1的卷积核压缩网络参数量，可以有效缓解训练过程中的梯度弥散问题.

表 2 DenseNet121网络结构

Tab.2 DenseNet121 network structure

网络层	S_I	S_C	S	S_O
Convolution＆ pooling	224×224	7×7	2	112×112
Convolution＆ pooling	112×112	3×3 max pool	2	56×56
Dense Block 1	56×56	$ \left[\begin{array}{l}1 \times 1 {\mathrm{c o n v}} \\3 \times 3 {\mathrm{c o n v}}\end{array}\right] \times 6 $	1	56×56
Transition Layer 1	56×56	1×1 conv	1	56×56
Transition Layer 1	56×56	2×2 average pool	2	28×28
Dense Block 2	28×28	$ \left[\begin{array}{l}1 \times 1 {\mathrm{c o n v}} \\3 \times 3 {\mathrm{c o n v}}\end{array}\right] \times 12 $	1	28×28
Transition Layer 2	28×28	1×1 conv	1	28×28
Transition Layer 2	28×28	2×2 average pool	2	14×14
Dense Block 3	14×14	$ \left[\begin{array}{l}1 \times 1 {\mathrm{c o n v}} \\3 \times 3 {\mathrm{c o n v}}\end{array}\right] \times 24 $	1	14×14
Transition Layer 3	14×14	1×1 conv	1	14×14
Transition Layer 3	14×14	2×2 average pool	2	7×7
Dense Block 4	7×7	$ \left[\begin{array}{l}1 \times 1 {\mathrm{c o n v}} \\3 \times 3 {\mathrm{c o n v}}\end{array}\right] \times 16 $	1	7×7
Classification Layer	7×7	Global average pool	—	1×1
Classification Layer	1×1	1000 Fully-connected	—	1000

新窗口打开| 下载CSV

2.4. “学生”网络

EfficientNet-B0网络采用复合模型扩张的思想，打破了传统的模型构建方式. 通过利用复合系数从多个维度对卷积神经网络进行缩放，综合考虑到了网络深度和宽度的影响，显著降低了训练过程中模型的计算量和参数量. 因此本研究选用EfficientNet-B0网络作为“学生”网络.

EfficientNet-B0网络的复合缩放方法如图6所示，其中图6(a)为最初的基准模型；图6 (b)为在基准模型上进行宽度扩展的模型，可以提高网络的特征表达能力；图6 (c)为在基准模型上进行深度扩展的模型，可以获得更丰富的特征；图6 (d)为在基准模型中对输入图像尺寸扩展的模型，可以用于不同的任务和需求；图6 (e)为在基准模型上对深度、宽度和分辨率3个维度进行扩张的复合缩放. 该方法通过同时对网络的深度、宽度和图像大小进行缩放，使得网络在保持高效率的同时具备更好的特征提取能力. 这种复合缩放方法可以帮助网络更好地捕获图像中的病害细节信息，提高模型对于不同尺度、大小和形状的病虫害的识别能力. 同时，由于EfficientNet-B0网络相对轻量化，其在计算资源消耗和模型存储方面也更有优势.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 EfficientNet-B0模型复合缩放方法

Fig.6 Composite scaling method of EfficientNet-B0 model

3. 结果与分析

3.1. 实验环境及参数设置

所有实验均在Linux平台下运行，使用Python3.8语言调用PyTorch框架实现网络的搭建、调试、训练和测试. 服务器配置如下：CPU为24 vCPU AMD EPYC 7642 48-Core Processor，GPU为 RTX 3090(24GB). 模型训练过程设置初始学习率为0.0001，采用Adam算法动态调整每个参数的学习率，设置批处理大小为8，迭代次数为100次.

3.2. 性能评价指标

由于复杂背景下苹果叶片病害识别须同时兼顾精度和速度，因此选用准确率ACC、召回率R、F1值、混淆矩阵(confusion matrix)和识别热力图作为模型的评价指标.

3.3. 消融实验

为了验证改进后的MA-ConvNext模型对苹果叶片病害图像识别的分类效果，设置3组消融实验. 主干网络均选用ConvNext网络，使用CycleGAN-IA数据增强后的苹果叶片病害图像作为训练数据集，验证集使用真实环境下且未经过数据增强的图像，结果如表3所示. 表中，“√”表示采用了改进算法，FPS为检测速度，W为权重. 可以看出，A-ConvNext较原网络在准确率上提高了0.41个百分点，验证了加入MSCB模块能够提高网络模型对叶片病害的识别效果. 相比于原网络，M-ConvNext网络的分类准确率达到99.21%，证实了改进的TAFB模块能够有效提升模型性能. 通过纵向对比4个网络的实验数据可得，MA-ConvNext网络准确率达到了99.38%，较原网络提高0.61个百分点，F1值提高1.08个百分点，召回率提高1.01个百分点，FPS提高了1.7帧/s，网络整体性能良好，符合设计要求.

表 3 消融实验结果

Tab.3 Results of ablation experiment

网络模型	FPS /(帧·s⁻¹)	W/10⁶	改进算法		ACC/%	F1/%	R/%
网络模型	FPS /(帧·s⁻¹)	W/10⁶	MSCB	TAFB	ACC/%	F1/%	R/%
ConvNext	73.5	10.5	—	—	98.77	98.01	98.20
A-ConvNext	71.5	10.5	—	√	99.18	98.83	98.83
M-ConvNext	74.7	11.2	√	—	99.21	98.76	98.93
MA-ConvNext	75.2	12.7	√	√	99.38	99.09	99.21

新窗口打开| 下载CSV

采用类激活可视化算法验证改进后各模块对网络模型整体的提升效果. 如图7~9所示分别表示各模块对黑腐病、锈病和疮痂病苹果叶片的识别热力图. 由图7可以看出，改进前的网络对黑腐病识别范围较广，病斑严重程度区分不明显，改进后的网络可以精确提取出病斑的位置. 由图8可以看出，改进后的网络在识别锈病时，病害显示颜色更显著，更容易区分出病害的位置. 由图9可以看出，在对疮痂病苹果叶片进行病害识别时不受背景信息的干扰，缩小了疮痂病病害的范围.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 各模块对黑腐病苹果叶片的识别热力图

Fig.7 Thermogram of identifying black rot apple leaves by each module

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 各模块对锈病苹果叶片的识别热力图

Fig.8 Thermogram of identifying rusty apple leaves by each module

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 各模块对疮痂病苹果叶片的识别热力图

Fig.9 Thermogram of identifying scab apple leaves by each module

综上所述，从图中观察可得，原ConvNext网络在识别3类病害时存在识别范围广、受背景信息干扰的问题；在加入MSCB模块后，网络可以提取到原网络未能捕捉的信息，并缩小识别范围；在加入TAFB模块后，网络能够更精准地定位病斑位置；而最终的MA-ConvNext网络结合了上述2个模块的优点，能够解决识别分散、受背景干扰的问题，实现对病斑的精准定位.

3.4. 数据扩充实验

为了验证扩充方法对苹果叶片病害图像识别的效果，设置以下对比实验，如表4所示. 可以看出，数据集扩充后MA-ConvNext网络准确率达到99.38%，较扩充前提高了21.04个百分点，说明扩充后的数据能够有效提高苹果叶片病害识别的准确率.

表 4 数据扩充前、后精度的比较

Tab.4 Comparison of accuracy before and after data expasion

网络模型	ACC/%
网络模型	原始数据集	扩充后数据集
ConvNext	74.45	98.77
MA-ConvNext	78.34	99.38

新窗口打开| 下载CSV

3.5. 与其他模型对比实验

将上述7个网络模型在相同的测试集上测试，如表5所示. 表中，S、F、P分别表示网络、计算量、参数量大小. MA-ConvNext网络相比于ResNet50^[20]、Inception-V3^[21]、DenseNet121^[22]、MobileNet-V3^[23]、EfficientNet-V2^[24]、ConvNext^[25]网络，其准确率分别提高3.98个百分点、2.29个百分点、3.44个百分点、7.55个百分点、4.27个百分点、0.61个百分点，F1值分别提高5.92个百分点、3.60个百分点、5.05个百分点、10.68个百分点、6.31个百分点、1.08个百分点，召回率分别提高5.51个百分点、3.40个百分点、4.78个百分点、9.88个百分点、6.03个百分点、1.01个百分点. 网络大小保持不变，参数量较原网络减少7.3×10⁵. 由此可得，在复杂背景下的苹果叶片病害图像识别研究中，MA-ConvNext网络表现出更佳的性能.

表 5 不同模型在测试集上的比较

Tab.5 Comparison of different models on test set

网络模型	S/10⁶	F/10⁹	P/10⁶	ACC/%	F1/%	R/%
ResNet50^[20]	90.00	4.13	25.56	95.40	93.17	93.70
Inception-V3^[21]	83.40	2.86	27.16	97.09	95.49	95.81
DenseNet121^[22]	27.60	2.90	7.98	95.94	94.04	94.43
MobileNet-V3^[23]	2.28	0.23	5.48	91.83	88.41	89.33
EfficientNet-V2^[24]	77.80	2.89	21.46	95.11	92.78	93.18
ConvNext^[25]	106.00	4.49	28.59	98.77	98.01	98.20
MA-ConvNext	106.00	4.60	27.86	99.38	99.09	99.21

新窗口打开| 下载CSV

改进前、后网络的混淆矩阵如图10所示. 图中，T为分类器的概率. 可以看出，ConvNext网络大多数分类结果集中在混淆矩阵的对角线上，但在对黑腐病和疮痂病的区分上仍存在混淆情况. 相比之下，MA-ConvNext网络对4类样本的分类结果更加集中地落在混淆矩阵的对角线上，仅在健康叶片上存在误差，准确率达到99%. 总体来说，相较于改进前的网络，改进后的网络识别效果更好.

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 改进前、后网络的混淆矩阵对比

Fig.10 Comparison of confusion matrix of network before and after improvement

3.6. 分步关系知识蒸馏实验

为了验证分步关系知识蒸馏前各网络的性能，采用3.1节中的参数设置分别对“教师”网络、“中间”网络和“学生”网络单独训练，实验结果如表6所示. 表中，Loss表示损失值大小. 通过纵向对比3个网络在分步关系知识蒸馏前的各个参数，可以看出，MA-ConvNext网络、DenseNet121网络和EfficientNet-B0网络的准确率、损失值、网络大小、计算量和参数量均呈现下降趋势，符合目标网络的设置.

表 6 分步关系知识蒸馏中各网络性能

Tab.6 Performance of each network in stepwise relational knowledge distillation

网络模型	ACC/%	Loss	S/10⁶	F/10⁹	P/10⁶
MA-ConvNext	99.38	0.037	106.0	4.60	27.86
DenseNet121	95.94	0.019	27.6	2.90	7.98
EfficientNet-B0	93.72	0.068	15.6	0.41	5.29

新窗口打开| 下载CSV

为了验证“学生”网络不同蒸馏方式对苹果叶片病害识别的效果，设置3组对比实验，如表7所示. 可以看出，关系知识蒸馏后的EfficientNet-B0网络准确率为94.75%，分步关系知识蒸馏后的EfficientNet-B0网络准确率为95.48%，准确率提高了0.73个百分点，说明“学生”网络对分步关系知识蒸馏的有效性.

表 7 “学生”网络不同蒸馏方式的对比

Tab.7 Comparison of different distillation methods in "student" network

网络模型	ACC/%	S/10⁶	F/10⁶	P/10⁶
EfficientNet-B0	93.72	15.6	410.2	5.29
关系知识蒸馏 EfficientNet-B0	94.75	15.6	15.6	5.29
分步关系知识蒸馏 EfficientNet-B0	95.48	15.6	15.6	5.29

新窗口打开| 下载CSV

为了验证“中间”网络对模型的训练效果，如表8所示. 可以看出，关系知识蒸馏后DenseNet121网络的准确率较蒸馏前的准确率有所降低. 这是因为其拥有的特征信息较多，包括多尺度信息、特征复用信息、距离和角度结构信息等，信息的复杂程度导致准确率略有下降，但并不阻碍将其中融合的学习方式传递给“学生”网络.

表 8 “中间”网络关系知识蒸馏结果

Tab.8 Distillation results of "intermediate" network relational knowledge

网络模型	S/10⁶	F/10⁹	P/10⁶	ACC/%
MA-ConvNext	106.0	4.6	27.86	99.38
DenseNet121	27.6	2.9	7.98	95.94
关系知识蒸馏 DenseNet121	27.6	2.9	7.98	94.57

新窗口打开| 下载CSV

为了进一步验证“中间”网络的训练效果，绘制训练过程中的准确率曲线，如图11所示. 可以看出，DenseNet121网络和关系知识蒸馏之后的DenseNet121网络在前10轮训练时准确率同步上升，相比MA-ConvNext网络增长速度更快，说明通过关系知识蒸馏学习后，“中间”网络保持了DenseNet121网络的学习方式，而后续训练准确率稳定上升，未出现巨大波动，表明在训练的同时也融合了MA-ConvNext网络的学习方式.

图 11

新窗口打开| 下载原图ZIP| 生成PPT

图 11 “中间”网络训练过程中准确率曲线

Fig.11 Accuracy curve during "intermediate" network training

为了验证分步关系知识蒸馏模型对轻量化模型的指导作用，设置不同模型实验，结果如表9所示. 可以看出，经过分步关系知识蒸馏后，模型准确率提升至95.48%，较未蒸馏时增长了1.76个百分点. 虽然准确率略低于“教师”网络的，但在模型大小、计算量和参数量上都大大降低，表明本研究提出的分步关系知识蒸馏模型能够在不增加模型复杂度和训练成本的前提下，将2个复杂模型的知识融合到轻量型模型中，有效提升了网络模型的性能.

表 9 分步关系知识蒸馏结果

Tab.9 Distillation results of stepwise relational knowledge

网络模型	ACC/%	Loss	S/10⁶	F/10⁹
MA-ConvNext	99.38	0.037	106.0	4.60
关系知识蒸馏 DenseNet121	94.57	1.412	27.6	2.90
分步关系知识蒸馏 EfficientNet-B0	95.48	0.823	15.6	0.41

新窗口打开| 下载CSV

4. 结　语

以复杂背景下、真实田间场景的苹果叶片病害图像数据作为研究对象，提出基于注意力和多尺度特征融合的苹果叶片病害识别网络，通过构建基于分步关系知识蒸馏的轻量化模型，成功解决了模型参数多、计算量大，系统易于卡顿或死机等问题. 实验结果显示，MA-ConvNext网络在识别苹果叶片病害图像方面取得了显著成效，其识别准确率达到了99.38%，相比原网络提高了0.61个百分点，并且F1和召回率均得到了提升，验证了该网络在复杂环境下的优越性. 分步关系知识蒸馏模型将“学生”网络的识别准确率提高了1.76个百分点，同时保持了模型大小、计算量和参数量的稳定，对于复杂环境下苹果叶片病害识别具有重要的启示作用.

在后续研究中，将会考虑增加数据的多样性，后续将会采集更多类别的苹果叶片病害图像，构建覆盖范围更全面的苹果叶片病害识别模型.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

翟肇裕, 曹益飞, 徐焕良, 等

农作物病虫害识别关键技术研究综述

[J]. 农业机械学报, 2021, 52 (7): 1- 18