基于改进的DeepLabV3+网络模型的杂交水稻育种父母本语义分割研究
1.
2.
Research on semantic segmentation of parents in hybrid rice breeding based on improved DeepLabV3+ network model
1.
2.
通讯作者:
收稿日期: 2022-09-05 接受日期: 2023-04-11
基金资助: |
|
Received: 2022-09-05 Accepted: 2023-04-11
作者简介 About authors
温佳(https://orcid.org/0000-0002-0076-9798),E-mail:
关键词:
Keywords:
本文引用格式
温佳, 梁喜凤, 王永维.
WEN Jia, LIANG Xifeng, WANG Yongwei.
在杂交水稻种子的生产环节中,杂交水稻制种时的高效授粉不可或缺,而杂交水稻授粉花期短,种植规模大,要在短时间内完成大面积授粉,对于劳动力的要求较高。杂交水稻制种授粉机器人能有效解决劳动力短缺和杂交水稻种植规模大的问题,提高授粉效率,其作用方式为在水稻父本上方驶过,将父本花粉吹向两侧水稻母本,因此,在杂交水稻制种阶段,精确识别和区分水稻父母本尤为重要。由于杂交水稻制种中水稻父本与母本的颜色和纹理较为相近,给传统的图像处理方法带来一定困难,使得传统方法不适于对此类颜色、纹理差别较小的作物进行区分。因此,研究使用深度学习方法对杂交水稻制种授粉阶段的父本与母本进行区分十分重要。
目前,国内外学者针对水果及其他农作物特征的识别和提取方法主要有传统图像处理、深度学习方法等。传统的水果及其他农作物的分割方法实现过程需要极为复杂的图像预处理[1-2]或交互[3],通常采用阈值分割算法[4]和边缘检测算法[5]对图像进行区分和提取,但是这些算法仅适合用于特征明显、背景较为简单的情况。在杂交水稻制种授粉阶段,水稻父母本颜色、纹理区别不大,传统的检测算法难以进行特征提取,而基于深度学习的算法能对这种颜色、纹理差别较小的农作物实现自动化分割[6],提高图像分割的精确性。陈进等[7]使用层数更深的U-Net模型进行水稻籽粒图像分割,加快了网络的收敛速度,提高了网络的泛化能力。胡春华等[8]基于SegNet与三维点云聚类方法对大田杨树苗叶片进行分割,提高了分割精度。王俊强等[9]将DeepLabV3+与条件随机场(conditional random field, CRF)结合使遥感影像边界更加清晰。慕涛阳等[10]将卷积注意力机制嵌入DeepLabV3+网络结构,减少了无关特征对识别精度的影响。LI等[11]使用OCRNet联合融合技术对跨域建筑屋顶进行分割,提高了分割效果。除此之外,基于深度学习的语义分割还广泛应用于医学[12-13]、桥梁[14]、交通[15]、遥感数据[16]等各方面,但是在农田杂交水稻父母本的分割上应用较少。部分网络针对高分辨率的图片特征丢失较多,细节恢复方面还存在较多问题,针对数据集较小的样本无法满足精确性和预测速度的要求。
本研究提出了一种改进的DeepLabV3+语义分割模型,为实现精度高、模型训练快的杂交水稻父母本分割,将较低层次信息和较高层次信息初步融合作为原低层次信息的输入,使得网络获得更加密集的信息,增强网络对于细节的提取能力,从而达到预期目的并取得分割结果提供模型支撑,也为早期杂交水稻制种授粉机器人对水稻父本中心线的路径提取提供依据。
1 数据采集及预处理
1.1 图像数据采集
实验数据采集日期为2021年9月13日(晴天)和2021年9月15日(阴天),图像采集地点为浙江省嘉兴市海宁市杂交水稻育种试验田基地和当地农民种植田地,采样实验数据有一定差异,有利于增强训练网络的鲁棒性和测试难度。图像采集设备为华为Mate 20 Pro手机,采集3 648像素×2 736像素的图像,共730张。
1.2 图像数据增强
为获得杂交水稻制种授粉阶段大量父母本的训练数据样本,可通过图像数据增强预处理的方法,对图像进行水平翻转、垂直翻转、缩放等一系列处理,获得原始数据量数倍的数据量。本实验对图像进行垂直翻转和水平翻转处理,图像数据增强后结果如图1所示,共获得原始数据量3倍的数据量,即2 190张水稻图像。
图1
图1
晴天和阴天的水稻样本处理图像
A.样本1(阴天);B.样本1垂直翻转(阴天);C.样本1水平翻转(阴天);D.样本2(晴天);E.样本2垂直翻转(晴天);F.样本2水平翻转(晴天);G.样本3(阴天);H.样本3垂直翻转(阴天);I.样本3水平翻转(阴天)。
Fig. 1
Images of rice sample treatments on sunny and cloudy days
A. Sample 1 (cloudy day); B. Sample 1 flipped vertically (cloudy day); C. Sample 1 flipped horizontally (cloudy day); D. Sample 2 (sunny day); E. Sample 2 flipped vertically (sunny day); F. Sample 2 flipped horizontally (sunny day); G. Sample 3 (cloudy day); H. Sample 3 flipped vertically (cloudy day); I. Sample 3 flipped horizontally (cloudy day).
1.3 图像标注
为训练网络对水稻制种授粉阶段的父本与母本进行区分,需要对数据增强后图像进行图像标注,图像标注也是极为重要的一步,标注的精确程度影响后续的图片预测。本实验使用开源工具Labelme软件对图像进行标注,结果如图2所示。对图像标注后的文件格式为JSON格式,将其转化为PASCAL VOC格式后进行后续训练操作。
图2
2 网络结构模型
考虑到网络结构的实时性和易部署性,将原模型DeepLabV3+_Xception主干网络的Xception网络模块替换为MobileNetV2,但DeepLabV3+_MobileNetV2模型中MobileNetV2网络模块的低层特征提取结构过于简单,对于轻量化的MobileNetV2网络结构特征提取效果甚微。为提高网络特征提取效果,本研究又提出一种联系较为紧密的低层特征分级提取方法,如图3所示,将MobileNetV2网络结构中较低层次和较高层次的分级特征先提取出来,针对特征图像不同的高、宽、通道数进行不同的卷积和上采样处理,然后将不同层次的信息进行第1次融合,以提升MobileNetV2网络结构的特征提取能力,为第2次与ASPP模块处理后的特征信息融合做准备。
图3
图3
改进的DeepLabV3+网络模型结构图
Fig. 3
Structure chart of improved DeepLabV3+ network model
由图3可知,改进的DeepLabV3+网络模型编码结构主要是由主干网络和ASPP模块组成,主干网络选用轻量化网络结构MobileNetV2,ASPP模块包含1个1×1卷积分支、3个3×3空洞卷积分支和1个全局池化层的分支,其中,3个3×3空洞卷积分支通过使用不同的膨胀率(分别为6、12、18)构建不同感受野的卷积核,在分辨率损失较小的情况下,获得多尺度的物体信息,使得图像中不同尺寸的物体都能得到较好的信息提取效果。首先将各个分支的特征信息用1×1卷积层进行融合,得到新的高层次的特征信息,然后在解码结构部分上采样,还原至与低层次分级特征信息有着相同高和宽的特征尺度,与从主干网络所引出的低层次分级特征信息进行融合,再使用3×3卷积细化特征层,最后使用双线性插值法4倍上采样使图像大小恢复至输入图像的原始尺寸。其中MobileNetV2网络模块采用倒残差结构(inverted residual structure),即先使用1×1卷积升维,然后使用3×3深度卷积(depthwise convolution)提取特征信息,最后使用1×1卷积降维,这样的处理能使高维信息通过ReLU激活函数后丢失的信息更少,倒残差结构有步距(stride, s)为1和2的2种结构,如图4所示。
图4
图4
MobileNetV2网络模块的倒残差结构
Fig. 4
Inverted residual structure of MobileNetV2 network module
MobileNetV2网络模块操作步骤如表1所示,c为输出特征矩阵的通道数(channel),n为瓶颈层(bottleneck)的重复次数,即倒残差结构的重复次数。操作流程分为8步,第1步将原图进行卷积操作,步距为2;第2—8步进行瓶颈层操作,重复次数分别为1、2、3、4、3、3、1,在重复次数大于1的瓶颈层操作中,步距只针对瓶颈层的第1层,后续重复瓶颈层的步距均为1。
表1 MobileNetV2网络模块整体操作步骤
Table 1
输入 Input | 操作 Operation | c | n | s |
---|---|---|---|---|
512×512×3 | 卷积 Convolution | 32 | 1 | 2 |
256×256×32 | 瓶颈层 Bottleneck | 16 | 1 | 1 |
256×256×16 | 24 | 2 | 2 | |
128×128×24 | 32 | 3 | 2 | |
64×64×32 | 64 | 4 | 2 | |
32×32×64 | 96 | 3 | 1 | |
32×32×96 | 160 | 3 | 2 | |
16×16×160 | 1 | 1 |
3 评估指标
评估指标用于评价语义分割模型的检测精度,是衡量语义分割模型是否适用的重要指标,常见的评估指标有平均像素准确率(mean pixel accuracy, mPA)、精确率(precision)、平均交并比(mean intersection over union, mIoU)和召回率(recall),上述指标都是建立在混淆矩阵(confusion matrix)[19]的基础之上的。
精确率又称查准率,表示在模型识别为正样本的所有样本中真实类别为正样本的占比。精确率计算公式如下:
召回率又称查全率,表示模型正确识别为正样本的数量与真实类别为正样本的总体数量的比值。一般情况下,召回率越高,说明有更多的正样本被模型正确预测,模型的效果越好。召回率计算公式如下:
像素准确率(pixel accuracy, PA)指每个类别下预测正确的像素数量与该类别像素总数的比值,mPA是所有类别PA的平均值,计算公式如下:
式中:pii 、pij 分别表示类别i被预测为类别i、类别j的像素个数;k表示不包括背景的类别数。
mIoU是分割任务的标准指标。交并比(inter-section over union, IoU)指目标掩膜与预测掩膜公共区域的像素个数与两者总像素个数的比值。mIoU是所有类别IoU的平均值,计算公式如下:
式中:pii 、pij 分别表示类别i被预测为类别i、类别j的像素个数;k表示不包括背景的类别数。
4 模型训练与实验结果分析
4.1 模型训练
本实验环境的配置为Windows 10操作系统、Intel(R)Core(TM)i7-10875H@2.30 GHz×16线程中央处理器(central processing unit, CPU)、16 GB 随机存储器(random access memory, RAM)、NVIDIA GeForce RTX 2060显卡和Pytorch深度学习框架。
将收集的2 190张图像分为训练集(60%)、验证集(20%)、测试集(20%)。采用随机梯度下降法进行优化,初始学习率设置为0.000 1,每个步骤都进行优化,动量因子设置为0.9,训练批大小设置为4,轮次设置为500,具体参数如表2所示。
表2 DeepLabV3+网络模型训练参数设置
Table 2
训练参数 Train parameter | 原DeepLabV3+ Original DeepLabV3+ | 改进的 DeepLabV3+ Improved DeepLabV3+ |
---|---|---|
初始学习率 Initial learning rate | 0.000 1 | 0.000 1 |
训练图像大小 Train image size | 512×512 | 512×512 |
训练批大小 Train batch size | 4 | 4 |
训练轮次数量 Number of train epochs | 500 | 500 |
训练集数量 Number of train sets | 1 314 | 1 314 |
验证集数量 Number of validation sets | 438 | 438 |
测试集数量 Number of test sets | 438 | 438 |
图5
图5
改进的DeepLabV3+网络模型损失曲线
Fig. 5
Loss curve of improved DeepLabV3+ network model
图6
图6
改进的DeepLabV3+网络模型平均交并比曲线
Fig. 6
mIoU curve of improved DeepLabV3+ network model
4.2 改进的网络模型与原网络模型指标数据对比
图7
图7
改进的DeepLabV3+网络模型(A)与原DeepLabV3+网络模型(B)损失对比
Fig. 7
Comparison of loss between the improved DeepLabV3+ network model (A) and the original DeepLabV3+ network model (B)
图8
图8
改进的DeepLabV3+网络模型与原DeepLabV3+网络模型的平均交并比对比
Fig. 8
Comparison of mIoU between the improved DeepLabV3+ network model and the original DeepLabV3+ network model
图9
图9
改进的DeepLabV3+网络模型与原DeepLabV3+网络模型的多项参数对比
Fig. 9
Comparison of multiple parameters between the improved DeepLabV3+ network model and the original DeepLabV3+ network model
从图7中可知,在模型训练损失方面,与原DeepLabV3+网络模型相比,改进的DeepLabV3+网络模型损失曲线波动较小,更容易收敛;改进的DeepLabV3+网络模型比原DeepLabV3+网络模型的训练损失收敛速度更快,原模型训练损失值最低只能下降到0.3,而改进后的模型训练损失值最低能达到0.2,训练损失值较原模型降低了0.1。
从图8中可知,将改进的DeepLabV3+网络模型和原DeepLabV3+网络模型mIoU曲线进行对比,原模型(DeepLabV3+_Xception)的mIoU为75.8%,而改进后的模型(DeepLabV3+_MobileNetV2)的mIoU为77.9%,整体增长了2.1个百分点。并且,改进后模型的mIoU曲线收敛速度更快,改进的DeepLabV3+网络模型的mIoU参数在50轮次训练时就能达到稳定,而原DeepLabV3+网络模型的mIoU参数达到稳定需要300轮次训练。
mIoU、mPA、平均精确率、平均召回率的具体结果如图9所示。类别_0(class_0)代表背景部分,类别_1(class_1)代表杂交水稻育种父本,类别_2(class_2)代表杂交水稻育种母本,总体(overall)代表总体参数值。
由图9可知,在代表杂交水稻育种父本和母本的类别_1和类别_2方面,改进的DeepLabV3+网络模型的平均精确率分别高于原DeepLabV3+网络模型3个百分点和1个百分点,能达到88%和86%;改进的DeepLabV3+网络模型的mIoU在类别_0、类别_1和类别_2方面,分别高于原DeepLabV3+网络模型5个百分点、1个百分点、1个百分点,能达到68%、83%和83%;在总体上,改进的DeepLabV3+网络模型的mPA和平均召回率均比原DeepLabV3+网络模型高出1个百分点。
分别利用原DeepLabV3+网络模型和改进的DeepLabV3+网络模型进行图片预测实验,2种模型分割杂交水稻育种父母本的比较结果如图10所示。从中可知,与原始图像对比,2种网络模型所训练的mIoU相差约2%,改进的DeepLabV3+网络模型的预测结果显示,图片在预测杂交水稻制种父母本的边界细节上效果更加明显。原DeepLabV3+网络模型的预测结果(图10F)显示,图像右上角边界处理较差,与改进后网络的预测结果(图10I)对比发现,后者对边界的处理更加细致,更加接近所对应的真实标签图像结果。由原DeepLabV3+网络模型预测结果(图10E)可知,图片上端对于杂交水稻父本的分割处理存在少量错误,即将背景误判为杂交水稻父本,其原因在于背景部分的杂草与杂交水稻父本外形较为相近,未经改进的网络在训练样本较少的情况下,无法对低层与高层信息建立更加紧密的联系,区分背景的能力较差,导致分割不精确;而与改进后网络的预测结果(图10H)对比可知,后者的分割处理更加准确,更加接近所对应的真实标签图像结果。
图10
图10
改进的DeepLabV3+网络模型与原DeepLabV3+网络模型的分割效果图像对比
Fig. 10
Comparison of segmentation effect images between the improved DeepLabV3+ network model and the original DeepLabV3+ network model
4.3 改进的DeepLabV3+网络模型与其他网络模型对比
为验证分割的有效性,利用本实验所建立的数据集,将改进后的DeepLabV3+网络模型与目前主流的分割网络模型FCN、U-Net、原DeepLabV3+以及先进网络模型OCRNet进行对比,评估指标对比结果如表3所示。结果显示,先进网络模型OCRNet较主流网络模型FCN、U-Net、原DeepLabV3+分割精度更高,本研究中改进后的DeepLabV3+网络模型在mIoU、mPA、平均召回率、平均精确率上都比其余4种网络模型更加精确,相较于其他网络模型更具优势,分割效果最好。虽然U-Net、FCN和OCRNet网络模型分割效率较高,但是mIoU较低。此外,改进后的DeepLabV3+较原DeepLabV3+图片预测用时更少,即预测速度更快。
表3 不同网络模型参数对比结果
Table 3
参数 Parameter | FCN | U-Net | OCRNet | 原DeepLabV3+ Original DeepLabV3+ | 改进的DeepLabV3+ Improved DeepLabV3+ |
---|---|---|---|---|---|
mIoU/% | 66.7 | 70.2 | 76.8 | 75.8 | 77.9 |
mPA/% | 72.4 | 74.6 | 85.7 | 86.0 | 87.4 |
平均精确率 Average precision/% | 73.1 | 77.5 | 86.4 | 87.8 | 88.3 |
平均召回率 Average recall/% | 72.7 | 74.2 | 85.2 | 86.0 | 87.3 |
图片预测时间 Image predictive time/ms | 92.3 | 83.0 | 87.2 | 121.1 | 94.4 |
模型训练时间 Model training time | 3 h 31 min 25 s | 2 h 48 min 14 s | 5 h 17 min 18 s | 11 h 37 min 45 s | 5 h 42 min 38 s |
5 结论
为提高杂交水稻父母本的分割精度和预测效率,本文提出一种基于DeepLabV3+框架改进的杂交水稻制种父母本图像识别的语义分割模型,将原模型卷积神经网络中的骨干网络部分Xception网络模块替换为轻量化的MobileNetV2网络模块,并对MobileNetV2网络的低层特征提取进行改进,提出了一种联系较为密集的信息提取方法,减少了浅层网络信息丢失,提高了图像的分割精度,也改进了深度网络模型在移动设备中实时性较差的问题。将本研究改进的DeepLabV3+网络模型与主流网络模型FCN、U-Net、原DeepLabV3+以及先进网络模型OCRNet进行对比,实验数据结果表明,改进后的DeepLabV3+网络模型对于杂交水稻制种父母本的分割效果要优于上述主流网络模型和先进网络模型,满足区分杂交水稻制种父母本的精度和实时性要求。
参考文献
基于统计直方图k-means聚类的水稻冠层图像分割
[J].
Rice canopy image segmentation based on statistical histogram k-means clustering
[J].DOI:10.3969/j.issn.1000-4440.2021.06.009 [本文引用: 1]
基于图像的水稻种子品种分类识别方法研究
[D].
Research on image-based classification and identification of rice seed varieties
[D].
基于ExG因子的水稻病斑分割技术
[J].
ExG factor-based spot segmentation technology for rice
[J].
基于阈值分割算法的水稻叶片病斑图像分割
[J].
Segmentation of the scabin rice leaf image based on threshold segmentation algorithm
[J].DOI:10.16083/j.cnki.1671-1580.2021.10.044 [本文引用: 1]
改进Canny算子与形态学融合的边缘检测
[J].
Improved edge detection by fusion of Canny operator and morphology
[J].DOI:10.16208/j.issn1000-7024.2023.01.030 [本文引用: 1]
DeepLab V3+改进的树木图像分割
[J].
Improved trees image segmentation based on DeepLab V3+
[J].DOI:10.16208/j.issn1000-7024.2023.01.031 [本文引用: 1]
基于U-Net模型的含杂水稻籽粒图像分割
[J].
Segmentation of impurity rice grain images based on U-Net model
[J].DOI:10.11975/j.issn.1002-6819.2020.10.021 [本文引用: 1]
基于SegNet与三维点云聚类的大田杨树苗叶片分割方法
[J].
Single poplar leaf segmentation method based on SegNet and 3D point cloud clustering in field
[J].DOI:10.6041/j.issn.1000-1298.2022.06.027 [本文引用: 1]
基于Deeplabv3+与CRF的遥感影像典型要素提取方法
[J].
Typical element extraction method of remote sensing image based on Deeplabv3+ and CRF
[J].DOI:10.19678/j.issn.1000-3428.0053359 [本文引用: 1]
基于改进的DeepLabV3+模型结合无人机遥感的水稻倒伏识别方法
[J].
Rice lodging recognition method based on UAV remote sensing combined with the improved DeepLabV3+ model
[J].DOI:10.11841/j.issn.1007-4333.2022.02.14 [本文引用: 1]
Performance evaluation of fusion techniques for cross-domain building rooftop segmenta-tion
[C]//
Analysis of medical slide images processing using depth learning in histopath-ological studies of cerebellar cortex tissue
[J].
医学图像融合方法综述
[J].
A review of medical image fusion methods
[J].DOI:10.11834/jig.220603 [本文引用: 1]
Bridgecrack semantic segmentation based on improved Deeplabv3+
[J].
Semantic road segmentation using deep learning
[C]//
ResUNet-a: a deep learning framework for semantic segmentation of remotely sensed data
[J].
Encoder-decoder with atrous separable convolution for semantic image segmentation
[C]//
Rethin-kingatrous convolution for semantic image segmentation
[CP/OL].
基于ResNet50网络的十种鱼类图像分类识别研究
[J].
Research on image classification and recognition of ten kinds of fish based on ResNet50 network
[J].DOI:10.3969/j.issn.1007-7103.2019.19.028 [本文引用: 1]
基于深度学习的眼角膜图像自动化分析研究
[J].
Research on automated corneal image analysis based on deep learning
[J].DOI:10.19292/j.cnki.jdxxp.2021.05.015 [本文引用: 1]
基于深度学习方法和RGB影像的玉米雄穗分割
[J].
Maize tassel segmentation based on deep learning method and RGB image
[J].DOI:10.3785/j.issn.1008-9209.2021.03.121 [本文引用: 1]
/
〈 |
|
〉 |
