<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 面向水下场景的轻量级图像语义分割网络总体结构

Fig.1 Overall architecture of lightweight semantic segmentation network for underwater image

图1中，编码器(Encoder)首先对输入图像进行快速下采样，生成不同分辨率的特征图. 解码器(Decoder)由2个特征融合模块组成，在联合高低级特征的同时可以进行快速上采样，最后进行8倍上采样，得到最终的分割图. 损失函数部分使用分割损失和边缘损失，通过预先提取的语义边界监督网络的边缘特征，细化了分割的边缘.

1.1. 编码器

网络的编码器部分由模块1~模块5这5个模块组成，其中模块1采用2个步长为2的3×3卷积，快速将输入图像下采样到1/4. 模块2~模块4由倒置瓶颈层构成，在获取特征信息的同时将图像下采样到1/32，得到具有丰富上下文信息的高级特征. 模块5是池化金字塔模块，用于细化特征图并嵌入全局池化信息. 各模块的参数如表1所示. 表中，s为步长，r为空洞率，W、H、C分别为输出的宽度、高度和通道数.

表 1 所提网络的编码器组成

Tab.1 Encoder composition of proposed network

模块	模块类型	输出尺寸(W×H×C)
模块1-1 模块1-2	3×3卷积(s = 2) 3×3卷积(s = 2)	160×128×12 80×64×12
模块2-1 模块2-2	倒置瓶颈层(r = 3，s = 2) 倒置瓶颈层(r = 6，s = 1)	40×32×24 40×32×24
模块3-1 模块3-2	倒置瓶颈层(r = 3，s = 2) 倒置瓶颈层(r = 6，s = 1)	20×16×48 20×16×48
模块4-1 模块4-2 模块4-3 模块4-4	倒置瓶颈层(r = 3，s = 2) 倒置瓶颈层(r = 6，s = 1) 倒置瓶颈层(r = 12，s = 1) 倒置瓶颈层(r = 18，s = 1)	10×8×96 10×8×96 10×8×96 10×8×96
模块5	池化金字塔模块	10×8×48

编码器中的倒置瓶颈层和金字塔池化模块是进行轻量化设计需要重点考虑的模块. MobileNetv2^[23]利用升降维操作和深度可分离卷积，有效减少了模型的参数量. 借鉴MobileNetv2倒置残差的思想，设计倒置瓶颈层，将空洞卷积添加到Mobilenetv2的倒置残差模块(inverted residual block)中. 在PSPNet的金字塔池化模块的基础上改进了升降维操作的位置，减小了参数量. 设计的倒置瓶颈层和金字塔池化模块如图2所示.

图 2

图 2 倒置瓶颈层与池化金字塔的结构示意图

Fig.2 Architectures of inverted bottleneck layer and pyramid pooling module

1.1.1. 倒置瓶颈层

设计轻量化模块倒置瓶颈层来提取特征，如图2(a)所示. 图2(a)中，input为输入特征图，主路径用3×3卷积有效地对特征进行聚合并拓展到高维空间. 为了控制计算成本，膨胀比率选择了3. 第2个卷积层中使用深度可分离卷积和空洞卷积，减少了计算量，增大了模型感受野的分辨率，在编码器不同的模块中采用不同的空洞率. 在快捷路径上，添加3×3卷积来细化特征图，但没有增加太多的计算成本，因为3×3卷积是在CUDNN库中特别优化的，此外使用LeakyReLU替代ReLU作为激活函数.

1.1.2. 池化金字塔

PSPNet提出的金字塔池化模块可以有效提升网络的性能，本文改进后的金字塔池化模块结构如图2(b)所示. 相较于PSPNet的池化金字塔，该模块用加和操作替代了通道连接，减少了参数量，选择了较大的池化核. 此处选择3×3、7×7、13×13和H×W，经过池化层后再上采样到之前的尺寸，通过将不同深度的信息与不同大小的池化核相结合，形成多尺度特征提取.该模块融合了4个不同尺度的特征，可以聚合不同尺度的上下文信息，提高获取全局信息的能力.

1.2. 解码器

所提网络采用非对称的结构，解码器部分只采用2个特征融合模块，在解码器的最后部分采取8倍上采样，得到与原图分辨率相同的分割结果. 各模块的参数如表2所示. 表中，N为数据集包含的类别数.

表 2 所提网络的解码器组成

Tab.2 Decoder composition of proposed network

模块	模块类型	输出尺寸(W×H×C)
第1阶段第2阶段	特征融合模块特征融合模块	20×16×48 40×32×24
第3阶段	上采样(8倍)	320×256×N

编码器第5个模块得到的特征图为高级特征，第4个模块得到的特征为低级特征. 高级特征的分辨率更低，具有更丰富的上下文信息；低级特征的分辨率更高，具有更丰富的空间细节信息. 对于高级特征和低级特征来说，简单的合并方式忽略了这2类信息的多样性，会导致分割精度下降.

该网络利用特征融合模块，融合编码器得到的高低级特征，如图3所示. 图中，input1表示输入的低级特征，input2表示输入的高级特征. 该模块将2个输入分别通过简单的残差结构进行细化，利用高级特征的上下文信息来指导低级特征，利用低级特征的空间信息来指导高级特征，将2个路径的特征图相加，最后通过3×3卷积层以改变通道数.

图 3

图 3 特征融合模块的结构示意图

Fig.3 Architecture of feature fusion module

1.3. 损失函数

总损失函数是在线难样本挖掘交叉熵损失(online hard example mining crossentropy loss, OHEMCELoss)和二元交叉熵损失(binary crossentropy loss, BCELoss)2种损失函数的线性组合. 使用OHEMCELoss作为分割损失函数，如下所示：

(1) $ \mathop l\nolimits_{\rm{s}} = {\rm{OHEMCE}}\left( {{\rm{GT}},{\rm{Seg}}\left( {\boldsymbol{X}} \right)} \right) . $

式中：l_s为分割损失，GT为真实的语义标签，Seg(X)为得到的分割结果，OHEMCE为OHEMCELoss的计算过程. 使用BCELoss作为语义边界损失函数，如下所示：

(2) $ \mathop l\nolimits_{\rm{b}} = {\rm{BCE}}\left( {\mathop {{\rm{GT}}}\nolimits_{{\rm{edge}}} ,\mathop {{\rm{Seg}}}\nolimits_{{\rm{edge}}} \left( {\boldsymbol{X}} \right)} \right) . $

式中：l_b为边缘损失，GT_edge为从真实的语义标签中通过边缘提取得到的边缘标签，Seg_edge(X)为从分割结果提取得到的边缘，BCE为BCELoss的计算过程. 使用参数α来平衡分割损失和边界损失，如下所示：

(3) $ L = \mathop l\nolimits_{\rm{s}} +\alpha \mathop l\nolimits_{\rm{b}} . $

式中：L为总损失，α为平衡参数.

对原图的真实语义标签及得到的分割结果图进行边缘提取，如图4所示. 明确的语义边界监督使得网络获得更准确的语义边界，双边特征更加明显.

图 4

图 4 真实语义标签和分割结果的边缘特征提取

Fig.4 Edge feature extractions of Ground Truth and segmentation results

2. 实验及结果分析

2.1. 数据集及实验参数设置

采用Islam等^[13]提出的用于水下图像语义分割的数据集SUIM和Reus等^[22]提出的海草数据集. SUIM包含1 525幅自然水下图像及其真实语义标签、110幅图片的测试集，这些图像是在海洋探索和人-机器人合作实验期间收集的. 该数据集对8个对象类别进行了像素级注释: 鱼类和其他脊椎动物、珊瑚礁和其他无脊椎动物、水生植物/植物群、沉船/废墟、人类潜水员、机器人和仪器、海底和岩石、水体背景. 海草数据集包含12682幅图片，该数据集包含海草和水体背景2个类别. 其中6037幅是人工标注过的，这些图片采集于0~6 m深的海底，实验中随机挑选其中的80%作为训练集，剩余20%作为测试集.

实验使用PyTorch1.9在一张NVIDIA GeForce GTX 1080Ti显卡上进行训练，使用Adam优化器，训练600代. 训练时批处理个数设置为32，初始学习率设置为0.0005，权重衰减为0.0001，动量设置为0.9. 学习率采用“Poly”策略，随着迭代次数的增加，学习率逐渐衰减.

2.2. 训练过程

实验中预先将输入图片的分辨率统一调整为320像素×256像素. 为了增加网络训练可用的数据，使用了几种不同的图像预处理方法: 以50%的概率左右翻转图像；以−20°~20°的随机角度旋转图像；使用预先计算好的数据集的均值和方差，对数据集的每一个图片进行归一化处理.

2.3. 实验结果

在SUIM和海草数据集的测试集上，评估所提网络的性能. 与训练时一样，预先将图片的分辨率统一调整为320像素×256像素，得到的实验结果如图5、6所示. 图中，第1行为输入的原图，第2行为真实的语义标签，第3行为本文所提网络得到的实验结果.

图 5

图 5 所提网络与经典网络的SUIM数据集的实验结果对比

Fig.5 Experimental results on SUIM dataset of proposed network compared with classical network

图 6

图 6 所提网络与经典网络的海草数据集实验结果对比

Fig.6 Experimental results on seagrass dataset of proposed network compared with classical network

从图5可得如下结论. 1)所提网络与经典的常规语义分割网络U-Net、SegNet、Deeplab、GCN^[24]相比，得到的语义分割结果的视觉效果明显优于这4种网络. 例如第1列，U-Net和SegNet得到的语义分割结果明显出现了大面积分类错误的情况，所提网络可以较准确地进行分类并划分出准确的语义边界. 2)所提网络与优秀的轻量级网络ENet、ERFNet、LEDNet、BiseNetv2得到的分割结果在视觉效果上相差不大，在某些情况下的分割准确度更优. 例如第4列，所提网络得到的分割结果图获得了最接近真实语义标签的分割边界，这是因为所提网络使用的辅助边缘损失函数可以使网络更关注边缘，起到细化边缘的作用. 3)与经典的常规语义分割网络PSPNet、OCNet相比，所提网络的分割效果略差，这是由于PSPNet、OCNet的网络层数和通道数更多，特征学习能力更强. 例如第6列，所提网络的部分区域出现分类错误的情况，而PSPNet、OCNet分割结果更准确.

从图6可得如下结论. 1)与经典的常规语义分割网络U-Net、SegNet相比，所提网络得到的语义分割结果的视觉效果明显更优，例如第2、4、5列，U-Net和SegNet出现了部分错检和漏检的区域，所提网络得到的分割结果更接近GT. 2)与经典的常规语义分割网络PSPNet、OCNet相比，所提网络得到的语义分割结果的视觉效果略差，例如第2列，PSPNet、OCNet得到的分割结果与所提网络相比，更贴近于GT. 3)所提网络与优秀的轻量级网络ENet、ERFNet、LEDNet、BiseNetv2、CGNet得到的分割结果在视觉效果上相差不大.

如图7所示为所提网络的SUIM数据集的实验失败案例. 可知，所提网络的分割结果出现了部分区域分类错误的情况. 这可能是由于网络主体结构部分为了减少参数量，采用非对称的编解码器结构，这种不对称的结构会导致空间细节的丢失. 尽管所提网络使用的特征融合模块及U型结构在一定程度上弥补了空间信息的损失，但不能彻底解决该问题. 此外，所提网络使用的通道数较少，学习特征的能力相对较弱.

图 7

图 7 所提网络的SUIM数据集实验失败案例

Fig.7 Experimental failure cases on SUIM dataset of proposed network

2.3.1. 对比实验

为了体现所提网络的优势，考虑几种先进的语义分割模型，包括非轻量级模型U-Net、SegNet、Deeplab、PSPNet、GCN、OCNet、SUIMNet、轻量级模型ENet、ERFNet、LEDNet、BiseNetv2、CGNet. 这些语义分割模型都是在SUIM数据集和海草数据集上训练并进行测试.

选择平均交并比(mean intersection over union，mIoU)和像素准确率(pixel accuracy，PA)作为衡量分割精度的评价指标. 像素准确率PA为预测类别正确的像素数占总像素数的比例. mIoU为语义分割的标准度量，是所有类别交集和并集之比的平均值.

在语义分割问题中，这2个集合为真实值和预测值. 平均交并比的计算公式如下:

(4) $ {\rm{mIoU}} = \frac{1}{{{\rm{classes}}}}\sum\limits_{{\rm{class}}} {\frac{{\left| {{\rm{GT}} \cap {\rm{Seg}}\left( {\boldsymbol{X}} \right)} \right|}}{{\left| {{\rm{GT}} \cup {\rm{Seg}}\left( {\boldsymbol{X}} \right)} \right|}}} . $

式中：classes为分割类别的总数量.

表3给出SUIM数据集每一类的交并比(intersection over union，IoU)，包括水体背景(background waterbody, BW)、人类潜水员(human divers, HD)、水生植物/植物群(aquatic plants and sea-grass, PF)、沉船/废墟(wrecks or ruins, WR)、机器人和仪器(robots, RO)、珊瑚礁和其他无脊椎动物(reefs and invertebrates, RI)、鱼类和其他脊椎动物(fish and vertebrates, FV)以及海底和岩石(sea-floor and rocks, SR)8个类别. 由表3可得如下结论. 1)该网络在SUIM测试集上达到53.55%的mIoU指标和85.32%的PA指标，相较于U-Net、SegNet、GCN等经典网络优势较大，与其他轻量级网络相比，所提网络的精度最高，mIoU和PA指标远远优于ENet，略优于BiseNetv2，仅次于非轻量级网络PSPNet和OCNet. 2)该网络在BW和SR 2个类别上达到最优的分割精度；在HD和RO类别上的分割精度在所有网络中排在前3位，十分接近于经典语义分割网络PSPNet，明显优于LEDNet、BiSeNetv2、ENet等其他轻量级语义分割网络. 在RI和FV 2个类别上，该网络的分割精度较BiseNetv2差，这可能是由于BiseNetv2可以通过空间分支(detail branch)来弥补快速下采样过程中的信息损失，说明该网络在该方面有一定的提升空间. 3)该网络在PF和WR 2个分类较困难的类别上的分割精度与PSPNet差距较大，这是因为该网络为了减少模型参数量，使用了较少的卷积层和网络通道数，相较于基础网络采用了ResNet-101的PSPNet，所提网络的特征学习能力较差.

表 3 各网络在SUIM数据集上的精度指标对比结果

Tab.3 Comparison results of accuracy index on SUIM dataset in each network

语义分割模型	IoU/%								mIoU/%	PA/%
语义分割模型	BW	HD	PF	WR	RO	RI	FV	SR	mIoU/%	PA/%
本文方法	84.62	63.99	18.46	41.84	61.93	53.44	46.00	58.42	53.55	85.32
U-Net^[3]	79.46	32.25	21.85	33.94	23.65	50.28	38.16	42.16	39.85	79.44
SegNet^[2]	80.63	45.67	17.45	32.24	55.72	47.62	43.92	51.51	46.85	82.19
Deeplab^[4]	81.82	50.26	17.05	43.33	63.60	57.18	43.59	55.35	51.52	84.27
PSPNet^[7]	82.51	65.04	28.54	46.56	62.88	55.80	46.78	55.98	55.51	86.41
GCN^[24]	79.32	38.57	15.09	30.38	54.25	49.94	36.09	52.02	44.46	81.28
OCNet^[15]	83.14	64.03	24.31	43.11	61.78	54.92	47.41	54.97	54.30	85.89
SUIMNet^[13]	80.64	63.45	23.27	41.25	60.89	53.12	46.02	57.12	53.22	85.22
LEDNet^[19]	82.96	58.47	18.02	42.86	50.96	58.13	46.13	54.99	51.36	84.25
BiseNetv2^[21]	83.67	59.29	18.27	39.58	56.54	58.16	47.33	56.93	52.47	84.96
ENet^[14]	80.94	50.60	16.97	36.71	51.73	49.24	41.99	50.46	47.33	82.31
ERFNet^[16]	83.02	52.95	17.50	41.72	49.80	53.70	45.98	54.30	50.40	83.75
CGNet^[17]	81.21	60.04	17.71	42.91	53.62	57.62	46.46	53.71	51.66	83.99

从表4可知，所提网络在海草数据集上分别在0~2 m和2~6 m的范围内达到88.63%和89.01%的mIoU指标以及96.08%和96.10%的PA指标，在所有轻量级网络中精度指标可以排在前两位，仅次于轻量级网络BiseNetv2. 相比于经典的语义分割网络U-Net、SegNet、Deeplab等，所提网络的分割精度明显更优，但与PSPNet和OCNet相比，所提网络的分割精度略差.

表 4 各网络在海草数据集上的精度指标对比结果

Tab.4 Comparison results of accuracy index in each network on seagrass dataset

语义分割模型	mIoU/%		PA/%
语义分割模型	0~2 m	2~6 m	0~2 m	2~6 m
本文方法	88.63	89.01	96.08	96.10
U-Net^[3]	87.69	87.42	95.89	95.62
SegNet^[2]	83.90	82.93	94.96	94.92
Deeplab^[4]	87.36	87.93	95.84	95.88
PSPNet^[7]	89.08	89.29	96.31	96.33
GCN^[24]	87.37	86.97	95.82	95.73
OCNet^[15]	88.96	89.41	96.26	96.35
SUIMNet^[13]	88.24	88.45	95.91	95.93
LEDNet^[29]	87.48	87.84	95.85	95.88
BiseNetv2^[21]	88.43	88.85	96.03	96.09
ENet^[14]	85.94	86.60	95.17	95.21
ERFNet^[16]	86.72	87.05	95.36	95.48
CGNet^[27]	87.15	87.24	95.43	95.46

因为本文的目标是设计轻量且高效的水下图像语义分割网络，通过对比实验评估其他语义分割网络与所提网络的效率和实时性. 评估指标包括模型参数量p(Param)、浮点运算数f(floating point operations，FLOPs)和推理速度v(inference speed). 其中浮点运算数表示网络模型的计算成本，浮点运算数越小表明需要的计算成本越小. 推理速度v以每秒帧数来衡量，每秒帧数越大，表明网络每秒可以处理的图片数越多，实时性越强.

从表5可得如下结论. 1)所提网络每秒可以处理近258帧的图片，在推理速度上所提网络最优，比其他轻量级网络ENet、ERFNet、LEDNet、BiseNetv2、CGNet的推理速度分别高出141、60、147、14、142帧/s，相比于非轻量级网络，优势更明显，推理速度达到PSPNet的40多倍. 2)所提网络的模型参数量为1.45×10⁶，排在第4位，仅次于轻量级网络ENet、LEDNet和CGNet，相比于非轻量级网络，参数量大幅降低. 3)所提网络的浮点运算数为0.31×10⁹，在所有分割网络中排在第1位，计算成本很小.

表 5 各网络的效率指标对比结果

Tab.5 Comparison results of efficiency index in each network

语义分割模型	v/(帧·s⁻¹)	p/10⁶	f/10⁹
本文方法	258.94	1.45	0.31
U-Net^[3]	19.98	14.39	38.79
SegNet^[2]	17.52	28.44	61.39
Deeplab^[4]	16.00	5.81	8.28
PSPNet^[7]	6.65	27.50	49.78
GCN^[24]	11.26	23.95	7.09
OCNet^[15]	31.71	60.48	81.36
SUIMNet^[13]	27.69	3.86	4.59
LEDNet^[19]	111.73	0.92	1.78
BiseNetv2^[21]	244.63	3.35	3.83
ENet^[14]	117.41	0.35	0.77
ERFNet^[16]	198.36	2.06	4.64
CGNet^[17]	116.49	0.48	1.08

综合对比平均交并比、像素准确率、推理速度、参数量和浮点运算数可知，所提网络在参数量、计算成本及处理速度等方面与常规的语义分割网络相比得到了很大的提升，与其他轻量级网络相比体现出一定的优势. 在分割精度上十分接近甚至优于常规的语义分割网络，在所有的轻量级语义分割网络中取得了较好的分割精度.

2.3.2. 消融实验

为了证明每个模块的有效性，开展消融实验，消融实验结果如表6所示. 池化金字塔模块的消融实验结果表明，利用该模块可以显著提高网络的性能，使得mIoU有了显著的提升. 这主要是因为池化金字塔模块通过全局池化和多尺度特征融合，引入了更多的上下文信息，有效地提高了分割精度.

表 6 SUIM数据集消融实验精度指标的对比结果

Tab.6 Comparison results of accuracy indicators for ablation experiments on SUIM dataset

池化金字塔模块	特征融合模块	图像预处理	辅助边缘损失函数	mIoU/%
—	—	—	—	50.91
√	—	—	—	52.03
—	√	—	—	51.45
√	√	—	—	52.26
√	√	√	—	52.66
√	√	√	√	53.55

为了验证特征融合模块的优势，在解码器部分采用不同的上采样方式. 具体如下：将解码器部分替换成类似于FCN的编码器结构，将高级特征2倍上采样后与低级特征简单的对应元素相加，将该过程重复2次，最后进行8倍上采样得到最后的分割结果. 实验数据表明，利用特征融合模块可以有效地结合高低级特征，提高了网络的性能. 此外，通过消融实验验证了预先进行图像预处理操作的有效性，包括对图片进行随机翻转和归一化处理. 实验结果表明，图像预处理操作可以将mIoU提升0.4%.

测试不同的基础网络编解码器结构对分割精度和速度的影响. 将编码器的5个模块分别替换为Mobilenetv2和ResNet-18^[25]，测试精度指标mIoU和速度指标FPS. 为了验证采用的非对称的编解码器结构的优势，将所提网络的解码器部分替换成与编码器对称的结构，把编码器中步长为2的卷积层替换成2倍上采样模块，实验结果如表7所示.

表 7 基础网络消融实验不同指标的对比结果

Tab.7 Comparison results of different indexes in baseline network ablation experiments

基础网络	v/(帧·s⁻¹)	mIoU/%
Mobilenetv2	213.29	51.66
ResNet-18	199.27	53.90
本文方法(对称)	126.12	54.23
本文方法(非对称)	258.94	53.55

从表7可得如下结论. 1)相比于Mobilenetv2，本文的基础网络的分割精度与分割速度都更优. 2)本文的基础网络的mIoU略逊于ResNet-18，但是在推荐速度指标上明显高于ResNet-18，检测速度更大，实时性更强. 3)与本文的非对称结构相比，对称结构可以提高分割精度，这是由于非对称的编解码器结构会不可避免地在下采样过程中损失空间信息. 对称结构可以在一定程度上缓解该问题，提升网络性能，但增加了大量的卷积层，网络复杂度大大提升，推理速度大幅下降. 与对称结构相比，非对称的编解码器结构可以在精度和速度间取得优秀的平衡.

测试不同的损失函数对分割精度的影响. 测试3种不同的分割损失函数，包括OHEMCELoss、交叉熵损失(crossentropy loss, CELoss)和交并比损失(intersection over union loss, IoULoss)，实验结果如表8所示. 可以看出，使用OHEMCELoss时的训练效果最好. 这是因为OHEMCELoss会对分割难度较大的样本增大训练次数，使得训练更有效，且与边缘损失函数BCELoss组合使用可以进一步提升网络的性能. 验证辅助边缘损失函数的有效性，测试平衡参数α对分割结果的影响，实验结果如表9所示. 可知，当α = 0.1时，分割效果最佳，利用辅助边缘损失函数可以显著提升网络的性能，将mIoU指标从52.66%提升到53.55%.

表 8 损失函数消融实验精度指标的对比结果

Tab.8 Comparison results of accuracy index in loss function ablation experiments

IoULoss	CELoss	OHEMCELoss	BCELoss	mIoU/%
√	—	—	—	49.91
—	√	—	—	51.31
—	—	√	—	52.66
—	—	√	√	53.55

表 9 平衡参数α消融实验精度指标的对比结果

Tab.9 Comparison results of accuracy index in balance parameter α ablation experiments

α	mIoU/%	α	mIoU/%
0	52.66	0.20	52.94
0.05	53.05	0.25	52.88
0.10	53.55	0.30	52.46
0.15	53.31	—	—

图8给出所提网络有、无辅助边缘损失函数的实验结果对比图. 如图8(a)所示为真实的语义标签，如图8 (b)所示为不使用边缘损失函数得到的分割结果，如图8 (c)所示为使用辅助边缘损失函数得到的分割结果. 从图8可以看出，当α = 0.1时，辅助边缘损失函数可以使得相同类别内的特征更加一致，不同类别间的特征更加明显. 通过明确的语义边界监督，网络模型获得更准确的语义边界，分割效果更好.

图 8

图 8 所提网络有、无边缘损失函数的对比结果

Fig.8 Comparison results of proposed network with or without edge loss function

3. 结　语

本文提出面向水下场景的轻量级图像语义分割网络，在分割精度和速度之间达到较好的平衡. 利用辅助边缘损失函数，使得语义边界更准确. 所提网络解决了现有语义分割模型在水下场景表现较差、分割边界粗糙的问题，对水下图像的语义分割研究具有重要意义.

所提网络主要考虑水下图像的边缘模糊问题，对于颜色对比度较低的水下图像，分割性能较差. 在未来的研究中，将会考虑设计颜色校正模块以解决色偏问题，提高模型的鲁棒性.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Santiago: IEEE, 2015: 3431-3440.

[2]

BADRINARAYANAN V, KENDALL A, CIPOLLA R

Segnet: a deep convolutional encoder-decoder architecture for image segmentation

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39 (12): 2481- 2495

DOI:10.1109/TPAMI.2016.2644615 [本文引用: 4]

[3]

RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation [C]// International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015: 234-241.

[4]

CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs [EB/OL]. [2014-12-22]. https://arxiv.org/abs/1412.7062.

[5]

CHEN L C, PAPANDREOU G, KOKKINOS I, et al

Deeplab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40 (4): 834- 848

[6]

CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [EB/OL]. [2017-06-17]. https://arxiv.org/abs/1706.05587.

[7]

ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 2881-2890.

[8]

周登文, 田金月, 马路遥, 等

基于多级特征并联的轻量级图像语义分割

[J]. 浙江大学学报: 工学版, 2020, 54 (8): 1516- 1524

ZHOU Deng-wen, TIAN Jin-yue, MA Lu-yao, et al

Lightweight image semantic segmentation based on multi-level feature cascaded network

[J]. Journal of Zhejiang University: Engineering Science, 2020, 54 (8): 1516- 1524

[9]

LIU F, FANG M

Semantic segmentation of underwater images based on improved Deeplab

[J]. Journal of Marine Science and Engineering, 2020, 8 (3): 188

DOI:10.3390/jmse8030188 [本文引用: 1]

[10]

ZHOU J, WEI X, SHI J, et al

Underwater image enhancement via two-level wavelet decomposition maximum brightness color restoration and edge refinement histogram stretching

[J]. Optics Express, 2022, 30 (10): 17290- 17306

DOI:10.1364/OE.450858 [本文引用: 1]

[11]

ZHOU J, WANG Y, ZHANG W, et al

Underwater image restoration via feature priors to estimate background light and optimized transmission map

[J]. Optics Express, 2021, 29 (18): 28228- 28245

DOI:10.1364/OE.432900

[12]

ZHOU J, YANG T, REN W, et al

Underwater image restoration via depth map and illumination estimation based on a single image

[J]. Optics Express, 2021, 29 (19): 29864- 29886

DOI:10.1364/OE.427839 [本文引用: 1]

[13]

ISLAM M J, EDGE C, XIAO Y, et al. Semantic segmentation of underwater imagery: dataset and benchmark [C]// 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems. Las Vegas: IEEE, 2020: 1769-1776.

[本文引用: 5]

[14]

PASZKE A, CHAURASIA A, KIM S, et al. Enet: a deep neural network architecture for real-time semantic segmentation [EB/OL]. [2016-06-07]. https://arxiv.org/abs/1606.02147.

[本文引用: 5]

[15]

YUAN Y, HUANG L, GUO J, et al

OCNet: object context for semantic segmentation

[J]. International Journal of Computer Vision, 2021, 129 (8): 2375- 2398

DOI:10.1007/s11263-021-01465-9 [本文引用: 4]

[16]

ROMERA E, ALVAREZ J M, BERGASA L M, et al

ERFNet: efficient residual factorized convnet for real-time semantic segmentation

[J]. IEEE Transactions on Intelligent Transportation Systems, 2017, 19 (1): 263- 272

[本文引用: 5]

[17]

WU T, TANG S, ZHANG R, et al

CGNet: a light-weight context guided network for semantic segmentation

[J]. IEEE Transactions on Image Processing, 2020, 30: 1169- 1179

[18]

LI H, XIONG P, FAN H, et al. DFANet: deep feature aggregation for real-time semantic segmentation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 9522-9531.

[19]

WANG Y, ZHOU Q, LIU J, et al. LEDNet: a lightweight encoder-decoder network for real-time semantic segmentation [C]// 2019 IEEE International Conference on Image Processing. Taipei: IEEE, 2019: 1860-1864.

[20]

YU C, WANG J, PENG C, et al. Bisenet: bilateral segmentation network for real-time semantic segmentation [C]// Proceedings of the European Conference on Computer Vision. Munich: Springer, 2018: 325-341.

[21]

YU C, GAO C, WANG J, et al

Bisenet v2: bilateral network with guided aggregation for real-time semantic segmentation

[J]. International Journal of Computer Vision, 2021, 129 (11): 3051- 3068

DOI:10.1007/s11263-021-01515-2 [本文引用: 5]

[22]

REUS G, MÖLLER T, JÄGER J, et al. Looking for seagrass: deep learning for visual coverage estimation [C]// 2018 OCEANS-MTS/IEEE Kobe Techno-Oceans. Kobe: IEEE, 2018: 1-6.

[本文引用: 2]

[23]

SANDLER M, HOWARD A, ZHU M, et al. Mobilenetv2: inverted residuals and linear bottlenecks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 4510-4520.

[24]

PENG C, ZHANG X, YU G, et al. Large kernel matters-improve semantic segmentation by global convolutional network [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 4353-4361.

[25]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.