浙江大学学报(工学版), 2022, 56(2): 213-224 doi: 10.3785/j.issn.1008-973X.2022.02.001

计算机与控制工程

基于生成式对抗网络和多级小波包卷积网络的水下图像增强算法

温佩芝,, 陈君谋, 肖雁南, 温雅媛, 黄文明

Underwater image enhancement algorithm based on GAN and multi-level wavelet CNN

WEN Pei-zhi,, CHEN Jun-mou, XIAO Yan-nan, WEN Ya-yuan, HUANG Wen-ming

收稿日期: 2021-03-29  

Received: 2021-03-29  

作者简介 About authors

温佩芝(1963—),女,教授,从事图像处理研究.orcid.org/0000-0002-3920-5930.E-mail:wpzsia@163.com , E-mail:wpzsia@163.com

摘要

为了解决水下图像的雾模糊和偏色问题,针对水下图像成像模型提出基于生成式对抗网络(GAN)和改进卷积神经网络(CNN)的水下图像增强算法. 利用生成式对抗网络合成水下图像,以对配对式水下图像数据集进行有效扩充. 利用多级小波变换,以不丢失特征分辨率的方式对水下图像进行多尺度分解,然后结合卷积神经网络利用紧凑式学习方式对多尺度图像进行特征提取,并利用跳跃连接以防止梯度弥散,克服水下图像的雾模糊效应. 利用风格代价函数学习彩色图像各通道间的相关性,提高模型的色彩校正能力,克服水下图像色彩失真的问题. 实验结果表明,相较对比算法,在主观视觉和客观指标上,本研究所提算法拥有更优秀的综合性能及鲁棒性.

关键词: 图像处理 ; 水下图像增强 ; 多级小波变换 ; 卷积神经网络 ; 生成式对抗网络

Abstract

An underwater image enhancement algorithm was proposed based on generative adversarial networks (GAN) and improved convolutional neural networks (CNN) in order to solve the problems of haze blurring and color distortion of underwater image. Generative adversarial network was used to synthesize underwater images to effectively expand the paired underwater data set. The underwater image was decomposed by multi-scale wavelet transform without losing the feature resolution. Then, combined with CNN, the compact learning method was used to extract features from multi-scale images, and skip connection was used to prevent gradient dispersion. Finally, the fog blur effect of the underwater image was resolved. In order to improve the color correction ability of the model and overcome the problem of color distortion of underwater images, the correlation between different channels of color images was learned by using the style cost function. Experimental results show that, in subjective visual and objective indicators, the proposed algorithm is superior to the contrast algorithm in comprehensive performance and robustness.

Keywords: image processing ; underwater image enhancement ; multi-level wavelet transform ; convolutional neural networks ; generative adversarial networks

PDF (1464KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

温佩芝, 陈君谋, 肖雁南, 温雅媛, 黄文明. 基于生成式对抗网络和多级小波包卷积网络的水下图像增强算法. 浙江大学学报(工学版)[J], 2022, 56(2): 213-224 doi:10.3785/j.issn.1008-973X.2022.02.001

WEN Pei-zhi, CHEN Jun-mou, XIAO Yan-nan, WEN Ya-yuan, HUANG Wen-ming. Underwater image enhancement algorithm based on GAN and multi-level wavelet CNN. Journal of Zhejiang University(Engineering Science)[J], 2022, 56(2): 213-224 doi:10.3785/j.issn.1008-973X.2022.02.001

自主水下机器人(autonomous underwater vehicle ,AUV)和遥控无人潜水器(remote operated vehicle,ROV)技术的逐渐成熟使海洋资源的开发和探索进入了新的阶段. 在海洋的勘探活动之中,视觉传感器因具备高信息密度和高直观性,成为水下机器人装备的优选,能够辅助水下机器人完成海洋环境检测[1]、水下电缆检修[2]、水下目标检测[3]等任务.

由于水下环境的特殊性,水下图像往往须经过预处理才能更好地进行分析处理,所以水下图像增强算法是图像处理领域的热点之一. 针对水下图像的增强算法相继出现,例如,融合算法[4]通过多种增强方法从单张图像中获得多个子增强图像,再按融合权重将子增强图像融合,获得最终的增强图像;相对全局直方图拉伸算法(relative global histogram stretching,RGHS)[5]通过采集自适应参数来对水下图像直方图进行拉伸,以改善水下图像的视觉质量. 另一方面,针对水下环境的成像模型的研究逐渐增多,对应的水下图像复原算法也相继出现. 例如,暗通道优先算法(underwater dark channel prior,UDCP)[6]基于暗通道的先验信息来估计水下场景的光传输图和场景深度图,从而对水下图像进行复原; Peng 等[7]通过建立图像模糊和光吸收(image blurriness and light absorption,IBLA)的模型复原水下图像;Song 等[8]则利用水下光衰减的先验信息(underwater light attenuation prior,ULAP)来估计场景深度图,进而复原水下图像. 随着深度学习的兴起,卷积神经网络(convolutional neural networks,CNN)在图像检测领域获得了诸多突破性的成果,将CNN引入水下图像增强领域也成为一种趋势. Li 等[9]创新性地利用生成式对抗网络(generative adversarial networks,GAN),以大气中的图像和其深度图以及噪声矢量作为输入,并建立相机模型来生成水下图像,然后将合成的水下图像、大气图像以及对应的深度图像作为输入,对CNN模型进行训练,实现了水下图像增强. Li等[10]从大量水下图像中选取质量最高的一部分,并利用循环式生成对抗网络(cycle generative adversarial networks,Cycle-GAN)[11]学习高质量到低质量水下图像的映射,然后根据该映射对高质量水下图像进行人工退化,获得成对的增强前-增强后数据集,利用该数据集对Cycle-GAN模型进行逆向训练(学习低质量到高质量水下图像的映射),对水下图像进行增强;此外,该文献还提出了一种基于弱监督的方法,不使用配对的水下数据集,而直接将不同质量的水下图像混合作为训练集用于水下图像增强模型,但该方法的增强效果差于使用配对式数据集的方法. Wang等[12]提出了UWGAN,其对水下成像模型进行了改进,同样通过GAN来合成水下图像,并设计了一种U型结构(U-Net)的端到端CNN模型,利用合成水下图像与对应的大气图像作为训练集,实现水下图像增强. 上述算法将深度学习应用到水下图像增强领域,提升了算法的整体性能.

本研究进一步探索设计更符合人类视觉的水下图像增强算法,主要进行了以下工作:1)将直接衰减分量和后向散射分量的传输图区分开来,设计了一个用于合成水下图像的GAN;2)基于多级小波包卷积神经网络(multi-level wavelet CNN,MWCNN)[13]设计端到端的图像增强模型,采用离散小波变换取代池化操作,提升模型对图像细节内容的增强作用;3)结合风格代价函数和L2范数损失函数,设计一个同时监控多层特征的损失函数,在不损失细节精度的基础上增强模型色彩校正性能.

1. 水下图像成像模型

根据Jaffe的成像模型[14],水下图像在相机中的成像可以看作3个分量的叠加,分别为直接衰减分量、后向散射分量以及前向散射分量,直接衰减分量为被物体反射回来且在传播过程中未散射到达成像设备的光线;后向散射分量用于描述背景光线被水体中的悬浮微粒折射(散射)后到达成像设备的部分;前向散射分量则是被物体反射的光在传播过程中发生了散射后到达成像设备的部分. 由于水下拍摄可见度较低,水下拍摄时场景与相机之间的距离一般不大,物体反射光线传播过程的散射较弱,故前向散射部分可以忽略. 综上所述,自然光照下的水下图像成像模型可以表示为

$ {I_c} \approx {D_c} + {B_c}. $

式中: $ {I}_{c} $为被相机拍摄到的图像; $ {D}_{c} $为直接衰减分量; $ {B}_{c} $为后向散射分量; $ c=\{\mathrm{R},\mathrm{G},\mathrm{B}\} $,R、G、B分别表示彩色图像的3个颜色通道.

Akkaynak等[15-16]通过实验发现,在水下成像模型中, $ {D}_{c} $$ {B}_{c} $分别受2个截然不同的系数 $ {\;\beta }_{c}^{\mathrm{D}} $$ {\;\beta }_{c}^{\mathrm{B}} $影响. 将式(1)扩展成如下形式[15]

$ \begin{array}{c}{I}_{c}={J}_{c}\mathrm{exp}\;(-{\beta }_{c}^{\text{D}}\left({\boldsymbol{v}}_{\text{D}}\right)z)+{B}_{c}^{\infty }\left(1-\mathrm{exp}\;(-{\beta }_{c}^{\text{B}}\left({\boldsymbol{v}}_{\text{B}}\right)z)\right)\end{array}. $

式中:z为相机到物体之间的距离; ${B}_{c}^{\infty } $为背景光;JcIc所对应的无水场景被相机所接收到的光线(理想的增强图像);向量vD=[z, ρ, E, Sc, β],向量vB=[E, Sc, b, β],反映系数 ${\;\beta }_{c}^{\text{D} }$${\;\beta }_{c}^{\text{B} }$的相关性,ρ为场景的反射比,E为环境光光谱,Sc为相机的光谱响应,bβ分别为水体的物理散射系数和光波衰减系数,这些系数均为光波长的函数.

在过去的研究[17-18]中,通常假设 $ {\;\beta }_{c}^{\mathrm{D}}={\;\beta }_{c}^{\mathrm{B}} $,但Akkaynak等[15-16]证明了他们不等且为非常数,并进一步解释了 $ {\;\beta }_{c}^{\mathrm{D}} $$ {\;\beta }_{c}^{\mathrm{B}} $的相关性:

$\begin{split} {\beta }_{c}^{\text{D}}=\;&\left[\mathrm{ln}\;{{\displaystyle \int }}_{{\lambda }_{1}}^{{\lambda }_{2}}{S}_{c}\left(\lambda \right)\rho \left(\lambda \right)E\left(d,\;\lambda \right)\mathrm{exp}\;(-\beta \left(\lambda \right)z){\rm{d}}\lambda -\right.\\ \;&\left.{{\displaystyle \int }}_{{\lambda }_{1}}^{{\lambda }_{2}}{S}_{c}\left(\lambda \right)\rho \left(\lambda \right)E\left(d,\;\lambda \right)\mathrm{exp}\;(-\beta \left(\lambda \right)\left(z+\text{Δ}z\right)){\rm{d}}\lambda \right]\Big/\text{Δ}z, \end{split} $

$ \begin{array}{*{20}{c}} {\beta _c^{\text{B}} = {{ - \ln\; \left[ {1 - \frac{{\displaystyle \int \nolimits_{{\lambda _1}}^{{\lambda _2}} {S_c}\left( \lambda \right){B^\infty }\left( \lambda \right)\left( {1 - \exp\; ( - \beta \left( \lambda \right)z)} \right){\rm{d}}\lambda }}{{\displaystyle \int \nolimits_{{\lambda _1}}^{{\lambda _2}} {B^\infty }\left( \lambda \right){S_c}\left( \lambda \right){\rm{d}}\lambda }}} \right]}\Bigg/z}} \end{array}. $

式中: $ {\lambda }_{1}=400\;{\rm{nm}} $$ {\lambda }_{2} =700\;{\rm{nm}}$$ {S}_{c}\left(\lambda \right) $$ \rho \left(\lambda \right) $分别表示在波长 $ \lambda $下的相机光谱响应和场景反射比, $ E\left(d,\;\lambda \right) $为水深 $ d $处波长为 $ \lambda $的环境光光谱. 式(2)中的背景光 $ {B}_{c}^{\infty } $表达式如下:

$ B{}_c^\infty \left( \lambda \right) = \displaystyle \int \nolimits_{{\lambda _1}}^{{\lambda _2}} {S_c}\left( \lambda \right){B^\infty }\left( \lambda \right){\rm{d}}\lambda , $

${B^\infty }\left( \lambda \right) = \left[ {b\left( \lambda \right)E\left( {d,\;\lambda } \right)} \right]/\beta \left( \lambda \right). $

式中: $ b\left(\lambda \right) $$ \beta \left(\lambda \right) $分别表示波长 $ \lambda $下的水体物理散射系数和光波衰减系数.

2. 水下图像生成模型

为了扩充水下图像数据集,假定存在大气图像到对应水下环境图像的映射,因为大多数场景理论上均可以移入水中,并观察到对应的水下场景. 为了模拟真实水下场景,本研究利用GAN模型对水下成像模型的参数进行拟合,并将空气环境中拍摄的图像转换为对应的水下图像,如图1所示为该模型的示意图. 其中生成器以水上的RGB-D图像和随机噪声参数作为输入,判别器以生成器合成的水下图像和真实水下图像作为输入.

图 1

图 1   水下图像生成模型

Fig.1   Underwater image generation model


GAN模型的自由度很高,为了达到纳什均衡,在设计生成器时须尽可能地利用先验知识,对生成模型进行合理的约束. Wang等[12]对雾天成像模型进行改进,将雾天成像模型Ic=Jctc+A(1−tc)改为Ic=Jctc+Atc(1−tc' ),其中,A为将当前环境置于空气中的环境光,tc为场景的传递图,tc' 为考虑了散射系数的传递图. 假设tctc' 为常数,Akkaynak等[16]的研究表明,这2个是关于波长、水体散射系数和光波衰减系数等物理系数的函数. 本研究提出的GAN模型的生成器以文献[15]所提出的修正水下成像模型为基础构建,其对参数tctc' 进行了更细致的扩展(式(2)). 由式(2)~(6)可知,想要得到理想的增强图像Jc,须测量或者估计以下参数:1)用于测量水体光学性质的物理散射系数b和光波衰减系数β;2)用于计算环境光的光谱E(d, λ)的水深d;3)物体与相机的距离z;4)场景中每个物体的反射比ρ和相机的光谱响应Sc. 实际上,要精确地测量这些参数,就须使用相同的设备在水下场景中进行大量的采样和计算. 在实际应用时希望仅通过单张的图像而不需要任何其他额外信息就可以改善它的视觉效果. Akkaynak等[19]使用非线性最小二乘法从单目图像中拟合Bc βc Bβc D,并使用Godard等提出的单目相机景深估计方法[20]来估算z. 对于真实的水下环境,假设即使有一个函数可以表示单张图像到这些参数的映射,它的复杂度也应远超过非线性最小二乘法所能拟合出的函数空间. 且Godard等[20]提出的模型是为了应用于空气中场景深度估计,对水下环境会产生较大的误差. 本研究使用拟合空间更大的CNN从图像中估计z以外参数的值. 单目图像景深值z的估算是一个复杂的问题,但在合成水下图像的方法中可以回避这个难题−使用已有精确景深标注的RGB-D图像来合成对应的水下图像.

为了精简网络结构,使用CNN对部分关键参数进行估算,并根据水下成像模型合成水下图像. 由式(3)可以看出,景深 $ z $对关键参数 $ {\;\beta }_{c}^{\mathrm{D}} $的取值起关键作用,而根据式(4)和(5)可以得到:

$ \beta _c^{\rm{B}} = - \ln \;\left[ {\frac{1}{{B_c^\infty }}\int_{{\lambda _1}}^{{\lambda _2}} {{S_c}} \left( \lambda \right){B^\infty }\left( \lambda \right)\exp \;( - \beta \left( \lambda \right)z){\rm{d}}z} \right]\Big/z. $

由式(6)、(7)可以看出, $ {\;\beta }_{c}^{\mathrm{B}} $$ {B}_{c}^{\infty } $$ E $主导. 据此,本研究在生成器中设计了参数估计器,如图2所示. 其主要由卷积模块(Conv Block)和连接操作(Concat)组成,Conv Block是一种简单的残差结构,由3层卷积、批标准化、线性整流函数(rectified linear unit,ReLU)和一个残差边组成,如图3所示,它可以进行特征层串联. 首先,为了估计环境光的光谱 $ E $,假设其值与单目图像以及该场景的深度图存在映射,将RGB图像和深度图在通道维度进行拼接,并连接2个Conv Block模块,输出参数 $ E $. 然后,将 $ E $分别与深度图和RGB图像拼接,通过2层Conv Block,输出 $ {\;\beta }_{c}^{\mathrm{D}} $$ {B}_{c}^{\infty } $的估计;将 $ {B}_{c}^{\infty } $$ E $拼接并通过2层Conv Block输出 $ {\beta }_{c}^{\mathrm{B}} $的估计. 在得到 $ {\;\beta }_{c}^{\mathrm{D}} $$ {\;\beta }_{c}^{\mathrm{B}} $$ {B}_{c}^{\infty } $的估值后,根据式(2)计算出水下图像. 此外,在无人工光源的水下环境中,光照度往往较低,因此部分水下图像会伴随一定程度的低照度噪声,本研究根据Wei等[21]提出的低照度噪声模型,加入了一个人工噪声模块.

图 2

图 2   水下图像生成模型的参数估计器

Fig.2   Parameter estimator of underwater image generation model


图 3

图 3   参数估计器的卷积模块

Fig.3   Conv block of parameter estimator


所提出的GAN模型判别器采用了Radford等[22]提出的CNN结构,以256×256×3像素的真实或者合成水下图像作为输入,通过4个卷积核大小为5×5、步长为2的卷积层,每个卷积层使得输入图像的尺寸减小为1/2且通道数增加一倍,在每个卷积层后接入leak率为0.2的带泄露修正线性单元(leaky rectified linear unit,LReLU)激活函数.最后一层为线性层,并接入Sigmoid激活函数,最终返回分类标签0(表示合成图像)或1(表示真实图像).

由于数据集中的水下图像包含了不同类型水质(颜色)的图像,它们之间的物理环境参数差距可能很大,为了使模型能更好地合成各种类型的水下图像,将数据集中的水下图像根据颜色进行分类,并按类别对水下图像生成模型进行训练. 实验发现,若将所有类型的训练集同时用于合成模型的训练,模型的收敛难度增大,最后的合成结果偏向于训练集中数量占比最高的类别.

3. 水下图像增强网络

获得水下图像到良性视觉图像之间的映射是水下图像增强算法的核心.受采集环境的影响,水下图像通常带有2个严重影响图像分析的退化——雾效应和色彩失真. CNN方法在图像去雾、去模糊任务上取得了较优秀的成果,其中,编码器-解码器式的图像增强网络能在保有良好的图像增强效果的同时大量减少训练参数. U-Net[23]是一种典型的编码器-解码器式网络,其U型结构的网络,在下采样过程中捕捉图像的语义信息,而在与之对应的上采样过程中进行精确的定位,利用少量的图像完成端到端的训练. UWGAN[12]采用U-Net作为水下图像增强网络,取得了一定的效果,但实验发现,U-Net网络处理后的图像可能出现棋盘格效应,且其在图像的色彩调整性能方面有所欠缺. 为了进一步提高水下图像增强网络的性能,针对U-Net增强网络的不足,本研究将水下图像增强任务分为2个部分−去雾和色彩校正,采用MWCNN取代U-Net,克服棋盘格效应并提高网络的细节提取能力,并提出一个新颖的色彩校正方案.

3.1. 基于雾效应的水下图像增强

为了探究水下图像的雾效应在图像中是否为一种集中的信息,对水下图像进行小波分析. 由水下成像模型可知,水下图像的雾效应分量主要为被水体散射的背景光到达成像设备的分量,通过分析发现,水下图像的雾分量主要存在于低尺度图像的低频部分(近似系数). 而物体反射分量(理想增强图像)经过衰减后的近似小波系数也必定不全为零,故水下图像经小波分解后得到的低频分量是散射分量和图像有效信息的低频分量的叠加. 虽然通过钝化低频分量可以有效抑制散射分量,但不同水体的散射强度并不一致,清澈的水体的散射分量较小,图像并没有肉眼可识别出的雾效应,在浑浊的水体中则相反,且在高尺度的细节分量(频率较低)中可能也包含了散射分量. 传统的图像增强方法会对小波分解后获得的分量进行软阈值和量化操作,相当于针对具体的任务通过手工方法设置卷积核以对图像进行卷积处理. 但对于复杂多变的水下环境,手工方法显然过于繁杂,并且例如水下图像低频信息中的散射分量的比重信息只能通过统计学方法或者依靠经验进行估计.

MWCNN[13]将小波包变换(wavelet packet transform,WPT)和CNN进行结合,对输入图像进行小波分解,并在每层分解后将所有子带图像作为一个CNN模块的输入,学习紧凑特征表示作为下一层小波分解的输入,利用机器学习的方法替代传统的手工卷积核,以获得更强的鲁棒性和精确性. 经过多层的WPT+CNN结构,CNN可以覆盖多个尺度下的图像分量,进一步加强网络对水下图像特征的学习能力. 与U-Net不同,MWCNN采用离散小波变换(discrete wavelet transform,DWT)和小波逆变换(inverse wavelet transform,IWT)替代下采样和反卷积,由于WPT的双正交特性,MWCNN可以在不丢失信息的条件下进行子采样操作. 与传统的CNN相比,DWT的频率和位置特征也更利于图像细节纹理的保存. 此外,使用IWT替代反卷积可以有效地避免因不均匀重叠[24]而造成的棋盘格效应. 在U型结构网络中引入的跃层连接,可以充分利用编码器中的结构信息,达到更好的去混迭及重建效果. 本研究在MWCNN的基础上提出了改进型的水下图像增强模型,如图4所示,相比MWCNN,其结构更为简单. 在编码器部分,以256×256像素的RGB图像作为输入,利用DWT不断对原始图像进行逐层分解,并通过3×3卷积对所有层次的子带图像学习紧凑特征表示,其中特征通道数及尺寸的变化已在图中标出. 在每次连续卷积操作后,接入ReLU作为激活层. 在每次DWT操作后特征通道数增加为原来的4倍,除了第1层之外均不使用CNN对特征向量通道进行扩张;在解码器部分,使用IWT按照从高维到低维的顺序使潜在向量返回到原始的输入尺寸. 该模型同样采用了跃层连接,不同于MWCNN,其在每次进行IWT操作后,将输出的张量与编码器侧相同尺度的张量进行拼接而非相加,对拼接后的张量同样采用与编码器部分相同的连续卷积+ReLU操作.

图 4

图 4   水下图像增强模型

Fig.4   Underwater image enhancement model


3.2. 水下图像色彩校正

由式(2)、(3)可知, $ {\;\beta }_{c}^{\mathrm{D}} $由一系列关于光波长 $\lambda $的函数所决定,不同波段(不同颜色通道)的光衰减程度不同,从而造成水下图像的色彩失真.通常的色彩校正思路是引导模型学习色彩失真图像到真实图像之间的色彩映射,但对于数据集稀缺的水下图像,这种方法会使得色彩校正效果局限于训练集中样本,降低鲁棒性. 受风格迁移模型的启发,本研究提出一个新的损失函数来指导模型学习颜色失真图像色彩通道的相关性到真实图像色彩通道的相关性的映射,以提高模型的色彩校正能力.

Gatys等[25]使用风格代价模型来实现图像风格转换任务,所提出的Gram矩阵概念将图像各个通道之间的相关性以矩阵的形式表现出来. Gram矩阵的定义如下:

$ {G_{kk'}^{\left[ l \right]\left[ S \right]} = \mathop \sum \nolimits_{i = 1}^{n_{\text{H}}^{\left[ l \right]}} \mathop \sum \nolimits_{j = 1}^{n_{\text{W}}^{\left[ l \right]}} a_{i,j,k}^{\left[ l \right]\left[ S \right]}a_{i,j,k'}^{\left[ l \right]\left[ S \right]}} . $

式中:S为风格图像; $ \text{ }l $为卷积层深度; $ \text{ }{G}_{k{k}^{\prime }}^{\left[l\right]\left[S\right]} $表示以风格图像作为输入,在第 $l$层的输出特征的Gram矩阵中,行列坐标为 $\left( {k,k'} \right)$的元素的值; $a_{i,j,k}^{\left[ l \right]\left[ S \right]}$为第 $l$层中 $\left( {i,j,k} \right)$位置的激活项; $ \text{ }{n}_{\text{H}}^{\left[l\right]} $为第 $l$层的输出特征的高度; $ \text{ }{n}_{\text{W}}^{\left[l\right]} $为第 $l$层的输出特征的宽度; $  i、j、k $分别表示该位置的高度、宽度及对应的通道数.

风格代价函数的定义为

$ J_{{\text{style}}}^{\left[ l \right]}\left( {S,G} \right) = \frac{1}{{{{\left( {2n_{\text{H}}^{\left[ l \right]}n_{\text{W}}^{\left[ l \right]}n_{\text{C}}^{\left[ l \right]}} \right)}^2}}} \mathop \sum \limits_k \mathop \sum \limits_{k'} \left( {G_{kk'}^{\left[ l \right]\left[ S \right]} - G_{kk'}^{\left[ l \right]\left[ G \right]}} \right). $

式中: $G$为生成图像; $ \text{ }{n}_{\text{C}}^{\left[l\right]} $为第 $l$层的输出特征的通道数; $ \text{ }{G}_{k{k}^{\prime }}^{\left[l\right]\left[G\right]} $表示以生成图像作为输入,在第 $l$层的输出特征的Gram矩阵中,行列坐标为 $\left( {k,k'} \right)$的元素的值.

结合L2范式损失函数和风格代价函数,设计复合损失函数:

$ L\left( x \right) = \frac{1}{N}\mathop \sum \limits_{x \in X} {\left( {g\left( x \right) - r\left( x \right)} \right)^2} + J_{{\text{style}}}^{\left[ l \right]}\left( {g\left( x \right),r\left( x \right)} \right). $

式中: $x$$X$范围内单个像素坐标, $X$为输入图像的所有像素的坐标集合, $N$为输入图像像素数量的总和, $g\left( x \right)$为模型输出的图像坐标 $x$处的像素值, $r\left( x \right)$为真值图像坐标 $x$处的像素值.

在训练过程中,除了最上层之外,计算每层解码器输出张量的Gram矩阵,将合成水下图像和相应真实图像的Gram矩阵作为风格损失函数的参数,将模型重构的RGB图像和相应的真实图像作为L2范式损失函数的参数.

4. 实验及结果分析

实验在python3.7环境下完成,实验服务器CPU为Intel Xeon Silver 4110 CPU,64 GB RAM,使用GPU加速训练,GPU为GTX 1080,显存为8 GB,采用Tensorflow深度学习框架对网络进行训练. 为了合理评估算法的运行时间,实验将所有图像的尺寸调整为256×256像素,以增强输出的稳定性.

将提出的增强模型同几种具有代表性的水下图像增强算法进行对比实验,包括5种传统增强算法RGHS[5]、UDCP[6]、IBLA[7]、ULAP[8]、Sea-thru[19]及2种深度学习算法FunieGAN、FunieGAN-up(FunieGAN和FunieGAN-up为相同算法[26],前者基于配对图像训练,后者基于非配对图像训练)和UWGAN[12]. 此外,为了验证本研究算法提出的色彩校正方法的性能,对本研究所提出的算法进行消融实验,加入不使用风格代价函数的模型进行对比实验. 实验测试集为URPC数据集上随机选取的500张图像以及EUVP数据集上随机选取的400张图像,从定性和定量的角度来分析实验结果.

4.1. 生成模型数据集

1)NYU Depth数据集[27-28]. 该数据集由纽约大学创建,由Microsoft Kinect的RGB和深度摄像机对各种室内场景采集而成,包含一系列的室内场景RGB图像和对应的深度图. 实验选取了该数据集V1和V2部分的3733张图像和对应的深度图像作为生成模型生成器的输入. 2)URPC2019数据集[29]. 该数据集为2019年全国水下机器人大赛提供的目标检测数据集,包含6000余张真实水下图像及物体位置标签,实验将其作为生成模型判别器的输入.

4.2. 增强模型数据集

1)合成水下数据集. 该数据集由第2节的水下图像生成模型合成,包含3733张室内场景RGB图像和对应的合成水下图像,合成图像风格接近URPC2019数据集的水下图像;2)EUVP数据集. 由文献[26]提供的水下图像数据集,其中真实水下图像由7种不同的摄像机于不同地点、不同能见度条件下的海洋环境中采集. 该数据集由Fabbri等[11]所提出的方法制作−利用现有的增强算法对真实水下图像进行增强,人工挑选出具有优良视觉的部分(真值),与原始水下图像配对(若增强图像来自CycleGAN弱监督方法,则采用对应模型的方法对增强图像进行退化,构成配对图像),共有3类共11435组配对水下图像.

4.3. 主观视觉效果分析

图5所示为上述水下图像增强算法在URPC2019数据集上的部分增强结果,由于该数据集没有真值图像,较难客观地进行颜色纠正效果的评估,故选取数据集中部分具有代表性的水下图像,从主观视觉的角度来分析各算法除色彩校正能力外的增强性能. 这些图像包含浑浊水域图像、低照度图像、绿色清澈水域图像、蓝色水域图像和浅绿清澈水域图像. 实验结果表明,IBLA算法能减弱图像的雾效应,增加浑浊水下图像的清晰度,并对图像的对比度进行拉伸,提高低照度图像的亮度,在一定程度上增强水下图像的细节,但对于本身明暗较为分明的图像,过高的对比度拉伸会导致图像明暗区域过于极端,反而造成细节丢失. UDCP算法具有一定的去雾能力,对于低程度浑浊水域图像的清晰度提升具有较好的效果,但对于高浑浊水域图像的效果有限,且该算法会导致图像低亮度区域的亮度进一步降低,造成细节丢失. ULAP算法的性能主要体现在对比度的调整上,经该算法增强的部分图像细节得到了增强,但该算法对重度浑浊的水下图像和低照度水下图像增强效果不理想. RGHS算法具有良好的去雾以及细节增强性能,但对低照度图像起到了反作用,使得低亮度区域辨识度降低. Sea-thru算法虽然具有较好的去雾性能,但降低了图像的整体亮度,使得图像能见度降低. UWGAN算法有一定去雾能力,但对高模糊图像效果不佳. 经FunieGAN算法处理过后的图像清晰度有一定的提升,低照度图像的亮度也稍有提升. FunieGAN-up算法的增强效果不明显,其处理后的图像与原图像较为相似. 本研究所提出的算法对大部分类型的水下图像都取得了较为理想的增强效果,能有效去除不同浑浊程度图像的雾效应,能有效增加低照度图像的亮度和清晰度. 另外,消融实验算法(不采用色彩校正方案)的去雾以及亮度、清晰度调整性能与本研究算法接近,但色彩平衡能力差于后者.

图 5

图 5   本研究算法与其他算法在URPC数据集上的视觉增强效果对比

Fig.5   Comparison of visual enhancement effect between proposed algorithm and other algorithms in URPC dataset


为了评测模型的色彩校正能力,实验在包含真值图像的EUVP数据集上进行测试,如图6所示为各算法在EUVP测试集上的结果示例. 对比真值图像发现,IBLA算法会使大部分图像偏红,偏离图像原色,且对比度过度拉伸的问题依然存在;UDCP算法并没有起到色彩校正的作用;ULAP算法使得图像偏蓝;RGHS算法在图像亮度和对比度调整及去雾能力方面有较好的表现,但不具备色彩校正的能力;Sea-thru和UWGAN算法调整了图像的色彩,但是调整后的图像色彩丰富度不高,和真值图像相比仍有较大差距;FunieGAN和FunieGAN-up算法也缺乏图像色彩的校正能力,且经FunieGAN-up算法处理后的图像存在坏点现象. 如图7所示为UWGAN算法和本研究算法在同一细节处的图像,可以发现相比采用U-NET的UWGAN算法,本研究算法能有效避免棋盘格效应. 对比其他算法,本研究算法校正后的图像色彩最接近真值图像. 消融实验表明,本研究算法提出的色彩校正方案对水下图像的色彩调整起到了关键的作用.

图 6

图 6   本研究算法与其他算法在EUVP数据集上的视觉增强效果对比

Fig.6   Comparison of visual enhancement effect between proposed algorithm and other algorithms in EUVP dataset


图 7

图 7   本研究算法与UWGAN算法实验图像细节对比

Fig.7   Comparison of detail of experimental image between proposed algorithm and UWGAN algorithm


4.4. 客观指标分析

实验使用3种非参考性度量指标−水下图像质量评估度量指标(underwater color image quality evaluation,UCIQE)[30]、水下图像质量指标(underwater image quality measure,UIQM)[31]和图像质量评价(natural image quality evaluator, NIQE)[32]和2种参考性度量指标−峰值信噪比(peak signal-to-noise ratio,PSNR)[33]和结构相似性(structural similarity,SSIM)[33]来评估算法. UCIQE和UIQM是目前认可度较高的2种水下图像非参考性度量指标,UCIQE利用图像色彩浓度、饱和度及对比度的线性组合来量化水下图像的模糊、非均匀色差和对比度. UCIQE越高,说明增强图像总体质量越高. UIQM将色彩度量(UICM)、清晰度度量(UISM)和对比度度量(UIConM)作为评价水下图像质量的基础,UIQM越高,说明增强图像综合质量越高. NIQE是一种基于多元高斯模型的非参考度量指标模型,其在原始图像库中提取图像特征,再利用多元高斯模型进行建模,在评价过程中利用待评价图像的特征模型参数与预先建立的模型参数之间的距离来确定图像质量,NIQE越低说明增强图像质量越好. PSNR将增强图像与真值图像作为输入,可以表征增强图像相对真值图像的失真程度,PSNR越大,失真程度越小. SSIM从亮度、对比度和结构共3个方面来综合评估增强图像与真值图像的相似度,其值越大,两者越相似.

URPC数据集没有配对的真值图像,仅使用无参考质量评价指标UCIQE、UIQM和NIQE进行评估,EUVP数据集包含真值图像,采用全部评价指标进行评估. 如表12所示分别为各算法在URPC和EUVP测试集上的平均得分. 在URPC数据集上,本研究算法获得了最佳的UIQM及NIQE平均得分,说明本研究算法增强后的图像整体效果更好,内容细节更丰富,最贴合具有良性视觉的水下图像. 在深度学习算法中本研究算法获得了最高的UCIQE的得分,虽然得分低于部分传统算法,但结合UIQM的得分以及主观评测结果可知,传统算法的高UCIQE得分可能来源于过高的图像饱和度,而饱和度过高会产生不自然的效果.在EUVP数据集上,本研究算法获得了最佳的SSIM、PSNR及NIQE平均得分. 说明本研究算法处理后的图像最接近真值图像,最符合人类的视觉感官. 此外,通过消融实验,可以发现本研究所提出的色彩校正方案能有效地优化水下图像增强模型的性能.

表 1   本研究算法和其他算法在URPC数据集上的各项指标对比

Tab.1  Comparison of indicators between proposed algorithm and other algorithms in URPC dataset

算法 UIQM UCIQE NIQE
原始图像 2.787 0.432 6.973
IBLA 2.612 0.558 7.220
UDCP 2.073 0.523 6.924
ULAP 2.394 0.524 6.717
RGHS 2.752 0.575 7.164
Sea-thru 3.022 0.533 6.844
UWGAN 2.981 0.490 6.225
FunieGAN 3.054 0.494 10.300
FunieGAN-up 2.915 0.479 7.744
本研究算法 3.341 0.525 5.866
本研究算法-无色彩校正 3.021 0.497 5.988

新窗口打开| 下载CSV


表 2   本研究算法和其他算法在EUVP数据集上的各项指标对比

Tab.2  Comparison of indicators between proposed algorithm and other algorithms in EUVP dataset

算法 SSIM PSNR UIQM UCIQE NIQE
原始图像 0.814 29.320 2.549 0.550 8.192
IBLA 0.464 15.040 1.045 0.698 11.930
UDCP 0.734 19.430 2.028 0.588 7.958
ULAP 0.694 23.190 2.213 0.577 8.073
RGHS 0.778 26.660 2.337 0.598 8.084
Sea-thru 0.772 21.380 2.593 0.591 8.123
UWGAN 0.880 29.020 3.345 0.554 7.294
FunieGAN 0.796 26.300 3.236 0.559 11.820
FunieGAN-up 0.768 26.200 3.029 0.557 8.259
本研究算法 0.932 30.610 3.196 0.570 7.212
本研究算法-无色彩校正 0.851 28.910 3.003 0.553 7.558

新窗口打开| 下载CSV


实验对各种算法的运行时间t进行了测量,如表3所示. 可以看出,与传统算法相比,基于深度学习的算法在运算时间性能上获得了极大的提升. 本研究算法的运算时间虽然高于其他深度学习算法,但在多项评价指标中获得了更优秀的得分.

表 3   各算法每张图像平均处理时间

Tab.3  Average processing time per image of algorithms

算法 t/s 算法 t/s
IBLA 5.595 UWGAN 0.010
UDCP 2.411 FunieGAN 0.017
ULAP 0.380 FunieGAN-up 0.017
RGHS 1.005 本研究算法 0.025
Sea-thru 2.910 本研究算法-无色彩校正 0.025

新窗口打开| 下载CSV


5. 结 语

本研究对水下图像处理领域有2个贡献:1)基于改进的水下成像模型,提出生成式对抗网络,将水上图像尽可能真实地转换为水下环境的图像,实验证明该模型合成的水下图像能有效地对水下图像增强模型进行训练,为扩展水下图像数据集提供了一个新的思路;2)结合MWCNN和风格代价函数提出新颖的水下图像增强模型,该模型充分考虑了深度卷积网络特征丢失的问题,并针对水下图像色彩失真问题提出新的解决思路. 该算法对时间复杂度和性能指标进行了权衡,在真实水下图像上取得了优秀的增强效果和较强的鲁棒性.

为了简化问题,本研究忽略人工光源对水下成像的影响,但在实际上,在更深的水域,人工光源是一种常用的辅助手段. 人工光源会使得图像亮度增加,像素强度梯度变小,前向散射的影响增强. 因此,在处理含人工光源的图像时,本研究算法的处理效果不太理想. 在未来的研究中将考虑这些问题,寻求更合适的解决方法.

参考文献

STANKIEWICZ P, TAN Y T, KOBILAROV M

Adaptive s-ampling with an autonomous underwater vehicle in static marine environments

[J]. Journal of Field Robotics, 2021, 38 (4): 572- 597

DOI:10.1002/rob.22005      [本文引用: 1]

RUMSON A. Development of autonomous subsea pipeline inspection capabilities[C]// Global Oceans 2020: Singapore–US Gulf Coast. Biloxi: IEEE, 2020: 1-6.

[本文引用: 1]

CEJKA J, BRUNO F, SKARLATOS D, et al

Detecting square markers in underwater environments

[J]. Remote Sensing, 2019, 11 (4): 23

[本文引用: 1]

ANCUTI C, ANCUTI C O, HABER T, et al. Enhancing underwater images and videos by fusion[C]// 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE, 2012: 81-88.

[本文引用: 1]

HUANG D, WANG Y, SONG W, et al. Shallow-water image enhancement using relative global histogram stretching based on adaptive parameter acquisition[C]// International Conference on Multimedia Modeling. Bangkok: Springer, 2018: 453-465.

[本文引用: 2]

DREWS P, NASCIMENTO E, MORAES F, et al. Transmission estimation in underwater single images[C]// Proceedings of the IEEE International Conference on Computer Vision Workshops. Sydney: IEEE, 2013: 825-830.

[本文引用: 2]

PENG Y, COSMAN P C

Underwater image restoration based on image blurriness and light absorption

[J]. IEEE Transactions on Image Processing, 2017, 26 (4): 1579- 1594

DOI:10.1109/TIP.2017.2663846      [本文引用: 2]

SONG W, WANG Y, HUANG D, et al. A rapid scene depth estimation model based on underwater light attenuation prior for underwater image restoration[C]// Pacific Rim Conference on Multimedia. Hefei: Springer, 2018: 678-688.

[本文引用: 2]

LI J, SKINNER K A, EUSTICE R M, et al

WaterGAN: uns-upervised generative network to enable real-time color correction of monocular underwater images

[J]. IEEE Robotics and Automation Letters, 2018, 3 (1): 387- 394

[本文引用: 1]

LI C Y, GUO J C, GUO C L

Emerging from water: underwater image color correction based on weakly supervised color transfer

[J]. IEEE Signal Processing Letters, 2018, 25 (3): 323- 327

DOI:10.1109/LSP.2018.2792050      [本文引用: 1]

FABBRI C, ISLAM M J, SATTAR J. Enhancing underwater imagery using generative adversarial networks[C]// 2018 IEEE International Conference on Robotics and Automation. Brisbane: IEEE, 2018: 7159-7165.

[本文引用: 2]

WANG N, ZHOU Y, HAN F, et al. UWGAN: underwater GAN for real-world underwater color restoration and dehazing [EB/OL]. (2019-12-21). https://arxiv.org/ftp/arxiv/papers/1912/1912.10269.pdf.

[本文引用: 4]

LIU P, ZHANG H, ZHANG K, et al. Multi-level wavelet-CNN for image restoration[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Salt Lake City: IEEE, 2018: 773-782.

[本文引用: 2]

JAFFE J S

Computer modeling and the design of optimal underwater imaging systems

[J]. IEEE Journal of Oceanic Engineering, 1990, 15 (2): 101- 111

DOI:10.1109/48.50695      [本文引用: 1]

AKKAYNAK D, TREIBITZ T. A revised underwater image formation model[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 6723-6732.

[本文引用: 4]

AKKAYNAK D, TREIBITZ T, SHLESINGER T, et al. What is the space of attenuation coefficients in underwater computer vision?[C]// Proceedings of the IEEE Conference on Com-puter Vision and Pattern Recognition. Honolulu: IEEE, 2017: 4931-4940.

[本文引用: 3]

GALDRAN A, PARDO D, PICON A, et al

Automatic red channel underwater image restoration

[J]. Journal of Visual Communication and Image Representation, 2015, 26: 132- 145

DOI:10.1016/j.jvcir.2014.11.006      [本文引用: 1]

ZHAO X W, JIN T, QU S

Deriving inherent optical properties from background color and underwater image enhancement

[J]. Ocean Engineering, 2015, 94: 163- 172

DOI:10.1016/j.oceaneng.2014.11.036      [本文引用: 1]

AKKAYNAK D, TREIBITZ T. Sea-thru: a method for removing water from underwater images[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Reco-gnition. Long Beach: IEEE, 2019: 1682-1691.

[本文引用: 2]

GODARD C, MAC AODHA O, FIRMAN M, et al. Digging into self-supervised monocular depth estimation[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 3828-3838.

[本文引用: 2]

WEI K, FU Y, YANG J, et al. A physics-based noise formation model for extreme low-light raw denoising [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 2758-2767.

[本文引用: 1]

RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks [EB/OL]. (2015-11-19). https://arxiv.org/pdf/1511.06434.pdf.

[本文引用: 1]

RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[C]// International Conference on Medical Image Computing and Computer-assisted Intervention. Munich: Springer, 2015: 234-241.

[本文引用: 1]

ODENA A, DUMOULIN V, OLAH C. Deconvolution and checkerboard artifacts [EB/OL]. [2021-03-01]. https://distill.pub/2016/deconv-checkerboard/.

[本文引用: 1]

GATYS L A, ECKER A S, BETHGE M. A neural algorithm of artistic style [EB/OL]. (2015-08-26). https://arxiv.org/pdf/1508.06576.pdf.

[本文引用: 1]

ISLAM M J, XIA Y, SATTAR J

Fast underwater image enh-ancement for improved visual perception

[J]. IEEE Robotics and Automation Letters, 2020, 5 (2): 3227- 3234

DOI:10.1109/LRA.2020.2974710      [本文引用: 2]

SILBERMAN N, FERGUS R. Indoor scene segmentation using a structured light sensor[C]// 2011 IEEE International Conference on Computer Vision Workshops. Barcelona: IEEE, 2011: 601-608.

[本文引用: 1]

SILBERMAN N, HOIEM D, KOHLI P, et al. Indoor segme-ntation and support inference from rgbd images[C]// European Conference on Computer Vision. Florence: Springer, 2012: 746-760.

[本文引用: 1]

URPC竞赛项目: 水下目标检测 [DS/OL]. [2019-8-8]. http://www.cnurpc.org/a/xwjrz/2019/0808/129.html.

[本文引用: 1]

YANG M, SOWMYA A

An underwater color image quality evaluation metric

[J]. IEEE Transactions on Image Processing, 2015, 24 (12): 6062- 6071

DOI:10.1109/TIP.2015.2491020      [本文引用: 1]

PANETTA K, GAO C, AGAIAN S

Human-visual-system-inspired underwater image quality measures

[J]. IEEE Journal of Oceanic Engineering, 2015, 41 (3): 541- 551

[本文引用: 1]

MITTAL A, SOUNDARARAJAN R, BOVIK A C

Making a “completely blind” image quality analyzer

[J]. IEEE Signal Processing Letters, 2013, 20 (3): 209- 212

DOI:10.1109/LSP.2012.2227726      [本文引用: 1]

HORE A, ZIOU D. Image quality metrics: PSNR vs. SSIM [C]// 2010 20th International Conference on Pattern Recognition. Istanbul: IEEE, 2010: 2366-2369.

[本文引用: 2]

/