浙江大学学报(工学版), 2025, 59(9): 1846-1855 doi: 10.3785/j.issn.1008-973X.2025.09.008

计算机技术

基于改进CycleGAN的水下桥墩裂缝图像生成

吕振鸣,, 董绍江,, 何婧瑶, 杨金龙, 张佳伟

1. 重庆交通大学 机电与车辆工程学院,重庆 400074

2. 重庆交通大学 河流与海洋工程学院,重庆 400074

3. 重庆交通大学 交通运输学院,重庆 400074

Underwater bridge pier crack image generation based on improved CycleGAN

LV Zhenming,, DONG Shaojiang,, HE Jingyao, YANG Jinlong, ZHANG Jiawei

1. School of Mechatronics and Vehicle Engineering, Chongqing Jiaotong University, Chongqing 400074, China

2. School of River and Ocean Engineering, Chongqing Jiaotong University, Chongqing 400074, China

3. School of Traffic and Transportation, Chongqing Jiaotong University, Chongqing 400074, China

通讯作者: 董绍江,男,教授. orcid.org/0009-0006-6937-0845. E-mail:dongshaojiang100@163.com

收稿日期: 2024-09-26  

基金资助: 重庆市自然科学基金创新发展联合基金资助项目(CSTB2024NSCQ-LZX0024);重庆市教育委员会科学技术研究资助项目(KJZD-K202300711);重庆市研究生科研创新资助项目(CYS240489).

Received: 2024-09-26  

Fund supported: 重庆市自然科学基金创新发展联合基金资助项目(CSTB2024NSCQ-LZX0024);重庆市教育委员会科学技术研究资助项目(KJZD-K202300711);重庆市研究生科研创新资助项目(CYS240489).

作者简介 About authors

吕振鸣(2000—),男,硕士生,从事水下机器人研究.orcid.org/0009-0009-3520-7523.E-mail:13946501711@163.com , E-mail:13946501711@163.com

摘要

基于深度学习的水下桥墩裂缝检测依赖大量的裂缝图像,然而桥墩裂缝稀缺且受水体环境干扰导致裂缝图像质量不佳,为此提出改进的CycleGAN网络用于生成水下桥墩裂缝图像数据. 通过水下机器人采集水下桥墩壁面图像数据,结合桥梁裂缝数据构建数据集. 为了保证生成数据质量,在CycleGAN的生成器中添加scSE注意力,并在颈部处添加DehazeFormer模块,使生成的水下桥墩裂缝的图像质量提升,在特征空间中具有更好的分布和区分度. 采用像素感知判别器对生成的图像进行精准判别. 采用所提方法,水下图像质量UIQM、水下色彩质量UCIQE和峰值信噪比PSNR分别达到0.818、0.443和24.673,生成的水下桥墩裂缝效果优于其他主流图像转换算法的. 为了验证裂缝图像质量,结合机器人采集的水下桥墩裂缝数据,采用目标检测任务对比生成的水下图像质量和真实的水下桥墩裂缝质量,结果表明,F1分数和mAP50指标分数相差均小于0.1%. 所提方法有望解决目标检测任务数据不足问题,为水下桥墩的安全评估提供有力的数据支持.

关键词: 水下桥墩裂缝 ; 数据稀缺 ; CycleGAN ; scSE注意力 ; DehazeFormer模块 ; 像素感知判别器

Abstract

Deep learning-based underwater bridge pier crack detection relies heavily on a large number of crack images. However, pier cracks are scarce and disturbed by the water environment, resulting in poor crack image quality. Thus, an improved CycleGAN network was proposed to generate underwater bridge pier crack image data. Underwater bridge pier wall image data were collected by an underwater robot and combined with bridge crack data to form a dataset. The scSE attention was added to the generator of CycleGAN, and the DehazeFormer module was added at the neck, to ensure the quality of the generated data. These enhancements improved the quality of the generated underwater bridge pier crack images, enabling better distribution and discriminative ability in the feature space. A pixel-aware discriminator was used to accurately discriminate the generated images. When compared with mainstream image conversion algorithms, the proposed method demonstrated superiority in terms of underwater image quality (UIQM), underwater color quality (UCIQE), and peak signal-to-noise ratio (PSNR). The UIQM score reached 0.818, the UCIQE score reached 0.443, and the PSNR metric score reached 24.673. To verify the crack image quality, target detection tasks were performed using both the generated underwater images and real underwater bridge pier crack data collected by the robot. The results showed that the F1 score and mAP50 indicator scores differed by less than 0.1%. The proposed method was expected to solve the problem of insufficient data for target detection tasks and provide strong data support for the safety assessment of underwater bridge piers.

Keywords: underwater bridge pier crack ; data scarcity ; CycleGAN ; scSE attention ; DehazeFormer module ; pixel-aware discriminator

PDF (3634KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

吕振鸣, 董绍江, 何婧瑶, 杨金龙, 张佳伟. 基于改进CycleGAN的水下桥墩裂缝图像生成. 浙江大学学报(工学版)[J], 2025, 59(9): 1846-1855 doi:10.3785/j.issn.1008-973X.2025.09.008

LV Zhenming, DONG Shaojiang, HE Jingyao, YANG Jinlong, ZHANG Jiawei. Underwater bridge pier crack image generation based on improved CycleGAN. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(9): 1846-1855 doi:10.3785/j.issn.1008-973X.2025.09.008

水下桥墩裂缝的检测对于桥梁结构的安全评估至关重要[1-2]. 然而,裂缝数据稀缺且水下环境复杂. 桥墩以及水上大型建筑表面缺陷的传统检测方法之一是聘用蛙人[3],由专业人员穿戴蛙人作业服通过肉眼进行观测并采集数据. 这种方式效率低下,耗费时间长,存在较大的安全隐患,同时也依赖于蛙人的主观经验.

一些学者通过深度学习方法处理数据集来扩充数据,Fan等[4]提出迁移学习方法MA-AttUNet,利用多级对抗传递网络实现裂纹图像特征的知识转移,可以将从源域中学到的先验知识应用于目标域实现水下裂纹图像分割,但没有从根本上解决裂缝数据稀缺的问题. Huang等[5]通过CycleGAN方法将大坝裂缝图像转换成水下大坝裂缝图像,缓解了水下大坝数据稀缺的问题,但图像有雾呈现蓝绿色. Ye等[6]为了解决水下结构检测不准、模型性能较差的问题,提出使用CycleGAN和Retinex方法将陆地结构缺陷转换为高质量的水下结构缺陷图像,但这种方法过于繁琐. 程风雯等[7]提出基于深度卷积生成对抗网络(deep convolutional generative adversarial networks,DCGAN)的水下结构物表面缺陷图像生成方法,改进损失函数,建立水下结构物表面缺陷图像的生成,但结果与实际的水下环境裂缝差异较大. 王桂平等[8]使用迁移学习方法解决桥梁表观病害数据缺失的问题,提高了病害识别率,但未从根本上解决数据缺失的问题. 针对盾构隧道衬砌的渗漏区缺陷的分类,Zhao等[9]通过添加缩放图像来放大泄漏区域图像数据集,并在分类数据集中实现数据增强以丰富数据库,增强后的分类数据集包含5776张图像,但是缩放图像会导致图像内容的模糊或失真. 扩充数据集的方法大多都是在原始数据的基础上进行的,容易出现过拟合的情况,且容易出现处理的数据较差的情况. 基于深度学习方法扩充数据可以缓解上述情况,为此提出使用CycleGAN网络转换水下桥墩裂缝以扩充数据.

足够数量数据集是检测水下桥墩裂缝模型训练的一个重要条件,但数据的质量也不能忽视,其容易影响检测模型训练的效果. 水下桥墩裂缝的图像通常受到水质、光照条件、散射、噪声等多种因素的影响,使得裂缝的准确检测和分析变得异常困难. 马金祥等[10]提出基于改进的暗通道先验的水下大坝裂缝图像自适应增强算法,有效消除了水下图像的噪声,增强了图像的清晰度,但是对光照不均匀的水下裂缝的恢复较差. Xin等[11]利用自适应直方图均衡将水下图像的不均匀光照区域变为均匀光照区域,实现了库坝裂缝的图像增强,但去雾性能较弱. Qi等[12]通过全局光照平衡、图像色彩校正、细节增强等一系列算法对水下光学图像进行预处理,针对长距离输水工程的混凝土结构的微裂缝实现增强,但预处理耗时较长且繁琐. 雍子叶等[13]提出融入注意力机制的弱监督水下图像增强算法,但是算法的鲁棒性有待加强. 范新南等[14]提出仿生水下生物视觉的大坝裂缝图像增强算法,借鉴生物视觉亮度调节性改善裂缝图像的亮度非均匀问题,但仿生方法需要复杂的设计来模拟生物过程. 温佩芝等[15]提出融合生成对抗网络(GAN)和优化卷积神经网络(CNN)的水下图像增强技术,有效解决了水下图像的雾化模糊和色彩偏差问题,但该方法在图像增强过程中仍存在局部失真和色彩偏差的问题.

本研究添加scSE注意力和Dehazeformer模块改进CycleGAN[16]的生成器生成水下风格的桥墩裂缝数据集,采用全局局部判别模块和像素注意力改进判别器判别生成的裂缝数据. 利用水下机器人采集的水下桥墩壁面图像和公开的陆地裂缝数据集,训练并测试改进的模型,生成水下裂缝图像,扩充数据. 结合水下机器人采集的真实水下桥墩裂缝数据进行水下图像质量评估实验、水下图像色彩评估实验、峰值信噪比指标评估实验验证生成的数据质量.

1. 基于改进CycleGAN的水下桥墩裂缝图像生成方法

CycleGAN是GAN的变体,其核心思想是在训练过程中引入循环一致性损失作为约束条件,使模型能够更全面地学习2个领域之间的关系映射,从而降低模式崩溃的可能性. CycleGAN 的最大优势在于不需要配对的数据集即可实现2个不同图像域的转换. CycleGAN利用2个生成器和判别器对2个图像域进行转换,如图1所示,通过生成器1将A域表示的陆地裂缝图像转换为B域的水下桥墩裂缝图像. 再经由判别器2对B域水下桥墩壁面的图像(B1)进行判别,至此完成一次循环. 生成器2将B1转换为A1域,判别器1会对A和A1进行判别,逆向循环过程完成.

图 1

图 1   水下桥墩裂缝生成网络框架

Fig.1   Network framework for crack generation in underwater bridge piers


1.1. 生成器

水下环境容易受到光线折射以及水中杂质的干扰,故生成器选择UNet作为主体框架,可以更好地保留图像的细节信息,如图2(a)所示. 为了缓解水下环境对生成的水下桥墩裂缝的效果,对生成器进行改进,主要分为2个部分. 一部分是空间通道挤压与激励(scSE)注意力[17]机制(见图2(c)),scSE注意力在空间和通道维度上同时调节特征图的重要性,使得生成器能够更加专注于水下桥墩壁面图像中关键的裂缝区域,可以显著提升水下桥墩裂缝图像的生成效果. 通过通道Channel Squeeze-and-Excitation(cSE)和空间Spatial Squeeze-and-Excitation(sSE)模块,scSE机制增强了对重要陆地裂缝细节和空间结构的关注,使生成器能够更精准地捕捉裂缝的形态和细节,同时减少背景噪声和干扰. 这种结构优化提高了图像的清晰度和真实感,确保生成的水下桥墩裂缝图像更具视觉准确性和细节表现. 另一部分添加DehazeFormer模块[18]至生成器的瓶颈. 它改进了Swin Transformer模块[19],引入SK融合层和软重建层以替代拼接融合层和全局残差学习,提升了模型对裂缝区域的重建效果,尤其在处理重建图像中的散斑时表现更为出色. SK融合层的采用使得模型能够更灵活地整合多尺度信息,更好地捕捉水下桥墩裂缝图像中的结构和特征. 软重建层的引入进一步增强了模型对复杂场景的适应性,使得重建结果更为真实和清晰.

图 2

图 2   所提出的水下桥墩裂缝生成CycleGAN网络框架

Fig.2   CycleGAN network framework for generating cracks in underwater bridge piers


考虑到散斑在图像中的特殊性,将LayerNorm[20]替换为RescaleNorm以确保特征图的规范化. 采用RescaleNorm有助于增强裂缝区域的细节和纹理,使模型更好地适应水下环境的变化,稳定性得以提高. 此外,选择RELU作为激活函数替换GELU[21],能够显著提升水下桥墩裂缝图像的生成效果. DehazeFormer的自注意力机制可以捕捉全局特征,改善图像的对比度和颜色,还原真实感. 同时,该模块的去噪能力和全局建模功能可以减少伪影和噪声,提高图像质量和生成稳定性.

1.2. 像素感知判别器

判别器对于CycleGAN来说至关重要,水下环境过于复杂致使生成的桥墩裂缝受到干扰,质量降低,为此,本研究提出像素感知鉴别器来判别生成的裂缝质量,如图2(d)所示. 像素感知判别器能够更加精确地评估生成图像的真实性,通过关注像素级别的细微差异,有助于减少误判和提高去雾效果的准确性. 首先,该判别器结合了全局和局部信息,在评估图像时不仅考虑了整体结构,还关注了细节特征,从而使得生成图像更加真实且保留了原始裂缝的形状和纹理. 其次,采用膨胀卷积[22] 替换原来的卷积,可以提高判别器对输入图像的整体特征的感知能力,从而更好地判断图像的真实性,同时,将膨胀卷积放在判别器的入口处有助于增强对这些重要特征的捕捉能力. 最后,像素注意力的引入提高了生成图像和判别图像的像素区分度,使其在复杂水下环境中仍能有效地去除雾化效果,从而提高整体的水下裂缝图像去雾性能. 像素感知判别器的综合结果如下:

$ {D_{{\text{MP}}}} = \alpha {D_{{\text{BP}}}}(u)+\beta {D_{{\text{SP}}}}({u_{{{ij}}}}). $

式中:${D_{{\text{BP}}}}$为大视野像素感知判别器;${D_{{\text{SP}}}}$为小视野像素感知判别器;$\alpha $$\beta $为像素感知判别器的权重,$\alpha +\beta = 1$u表示输入的图像,uij表示输入裁剪的图像,ij分别表示输入图片的随机裁剪的高和宽,i=64,j=64.

2. 损失函数

2.1. 对抗性损失

对抗性损失主要是为了更准确地提取陆地裂缝的特征,使用最小二乘损失来训练网络,损失函数表达式如下:

$\begin{split} L_{{\text{GAN}}}^{\text{G}}(G,D_Y^{\text{G}},x,y) =& {(D_Y^{\text{G}}(G(x)) - 1)^2}+ {(D_Y^{\text{G}}(y) - 1)^2}+ \\ & {(D_Y^{\text{G}}(G(x)))^2}\text{,}\end{split} $

$ \begin{split} L_{{\text{GAN}}}^{\text{G}}(F,D_X^{\text{G}},x,y) =& {(D_X^{\text{G}}(F(y)) - 1)^2}+{(D_X^{\text{G}}(x) - 1)^2}+ \\&{(D_X^{\text{G}}(F(y)))^2} \text{,} \end{split}$

$ \begin{split} L_{{\text{GAN}}}^{\text{L}}(F,D_Y^{\text{L}},x,y) =& {(D_Y^{\text{L}}(G({x_{\text{L}}})) - 1)^2}+{(D_Y^{\text{L}}({y_{\text{L}}}) - 1)^2}+ \\& {(D_Y^{\text{L}}(G({x_{\text{L}}})))^2} \text{,}\\[-5pt]\end{split} $

$\begin{split} L_{{\text{GAN}}}^{\text{L}}(F,D_X^{\text{L}},x,y) =& {(D_X^{\text{L}}(F({y_{\text{L}}})) - 1)^2} +{(D_X^{\text{L}}({x_{\text{L}}}) - 1)^2} +\\&{(D_X^{\text{L}}(F({y_{\text{L}}})))^2} \text{,}\\[-5pt]\end{split} $

$ \begin{split} {L_{{\text{GAN}}}} =& L_{{\text{GAN}}}^{\text{G}}(G,D_Y^{\text{G}},x,y)+L_{{\text{GAN}}}^{\text{G}}(F,D_X^{\text{G}},x,y)+ \\ & L_{{\text{GAN}}}^{\text{L}}(F,D_Y^{\text{L}},x,y) + L_{{\text{GAN}}}^{\text{L}}(F,D_X^{\text{L}},x,y). \end{split}$

式中:上标的G、L分别表示全局和局部,GF为生成器,用于将陆地裂缝转换为水下桥墩裂缝图像和将水下桥墩裂缝图像转换为陆地裂缝图像;$D_X^{{\text{G}}}$$D_X^{{\text{L}}}$为全局、局部判别器,用于对生成的不同尺寸的水下桥墩图像和对应的清晰水上桥墩壁面图像进行像素感知的判断;$D_Y^{{\text{G}}}$$D_Y^{{\text{L}}}$用于判断生成的全局尺寸和局部尺寸的陆地裂缝图像和对应的陆地裂缝图像的像素.

2.2. 循环一致性损失

原始 GAN 学习映射以生成在目标域中分布相同的输出,它可以将给定的输入映射到目标域中的任何随机空间. 因此,GAN的训练损耗不能保证给定输入产生所需的输出. 循环一致性损失是有效的正则化方法,用于训练水下裂缝图像去雾增强网络. 计算输入图像和通过生成器产生的循环图像之间的差异,促使生成的图像在经过循环后能够尽可能保持原始输入图像的信息和细节,提高去雾图像的质量和清晰度. 循环一致性损失表达式如下:

$ \begin{split} {L_{{\text{cyc}}}}\left( {G,F} \right) = &{E_{x{ \sim {\text{p}}}{{\text{data}}(x)}}}[||F(G(x)) - x|{|_1}]+ \\ &{E_{y{ \sim{\text{p}}}{{\text{data}}(y)}}}[||G(F(y)) - y|{|_1}]. \end{split} $

式中:$ {\text{pdata}}(x) $表示水下模糊图像数据分布,$ {\text{pdata}}(y) $表示水下清晰图像数据分布,x为水下失真图像,y为水下清晰图像.

2.3. 相同损失

由于水下裂缝图像存在雾化且易受光线干扰,利用身份映射损失[14]保留输入和输出纹理的一致性. 身份映射损失可以表示为

$ \begin{split} L_{\mathrm{idt}}= & {E}_{y \sim \operatorname{pdata}(y)}\left[\|G(y)-y\|_1\right]+ \\& {E}_{x \sim \operatorname{pdata}(x)}\left[\|F(x)-x\|_1\right].\end{split} $

总损失函数是上述3种损失的线性组合:

$ L=\gamma_1 L_{\mathrm{GAN}}+\gamma_2 L_{\mathrm{idt}}+\gamma_3 L_{\mathrm{cyc}} .$

经消融实验测试, $ {\gamma }_{1} $=1,$ {\gamma }_{2} $=10,$ {\gamma }_{3} $=10.

3. 水下桥墩裂缝图像生成实验

使用改进的CycleGAN将陆地混凝土桥梁裂缝转换为水下桥墩裂缝,在捕捉陆地裂缝图像纹理细节的同时,也起到图像增强的效果. 为了验证模型的可行性,挑选几种基于CycleGAN改进的图像转换算法模型(CycleGAN、Cycle-Dehaze[23]、Cycle-SNSPGAN[24]、UCL-Dehaze[25])作为对比,通过峰值信噪比(peak signal to noise ratio, PSNR)、水下彩色图像质量评估(underwater color image quality evaluation, UCIQE)[26]、水下图像质量评价指标(underwater image quality measures, UIQM)[27]等指标定量分析实验结果. 为了验证各个模块的效果,也对提出的模型进行消融实验.

3.1. 实验设置及数据集

本实验基于Linux系统、Pytorch环境. 在配置有15vCPU Intel(R) Xeon(R) Platinum 8474P CPU@2.60 GHz和NVIDIA RTX4090 (24 G) 的计算机上使用Ubuntu20.04操作系统,本实验的模型在PyTorch 1.10.0,Cuda11.3框架上完成. 输入图像的尺寸为256×256像素、训练轮数为200、Batchsize为8、使用Adam优化器,学习率为0.0002.

CycleGAN网络不需要配对的图像来训练,可采用公开裂缝数据集[28]. 作为数据集A,共约3500张,其中2200张作为训练集,1300张作为测试集,以测试改进的CycleGAN. 另外,采用一款搭载高清防水相机的有缆水下机器人(ROV),如图3所示. 采集地点为重庆市涪陵区鹤凤大道的攀华码头,数十根水下桥墩桩基提供了充足的桥墩壁面数据,水下机器人通过高清摄像头以及前置灯光构成感知系统采集水下桥墩壁面图像数据,利用8个无刷推进器驱动机器人前后左右、上浮下潜运动实现桥墩壁面的全局环绕扫描. 对视频流处理,共得到约2200张水下桥墩壁面图像数据,如图4(a)所示. 在采集壁面数据的同时也采集到约50张水下桥墩裂缝数据,如图4(b)所示.

图 3

图 3   水下桥墩裂缝采集实验设备及采集数据过程

Fig.3   Underwater bridge pier image data acquisition equipment and data collection process


图 4

图 4   改进的CycleGAN生成的数据集和真实水下桥墩裂缝数据

Fig.4   Dataset generated through improved CycleGAN and real underwater bridge pier crack data


3.2. 定量分析

采用2种无参考指标(水下图像质量评价指标UIQM、水下图像颜色质量评价UCIQE),同时参考峰值信噪比PSNR对不同算法进行测量. 表达式分别如下:

$ {\text{MSE}} = \frac{1}{{mn}}\sum\limits_{i = 1}^m {\sum\limits_{j = 1}^n {{{[x(i,j) - y(i,j)]}^2}} }, $

$ {\text{PSNR}} = 10 \times {\text{lo}}{{\text{g}}_{10}}\;\left(\frac{{{\text{MAX}}_{\text{I}}^{\text{2}}}}{{{\text{MSE}}}}\right). $

式中:MSE为实像x和平移图像y的均方误差;mn为图像大小,$ {\text{MAX}}_{\text{I}}^{} $表示图像像素可取的最大值. 该计算方法基于均方误差,均方误差是常见的误差度量,常用于数学分析和优化. PSNR适用于对精度和灵敏度要求较高的场景,如图像压缩、编码、传输等,它可以有效地评估图像的失真程度和恢复效果. PSNR越大,表示图像的质量越好. UIQM由水下图像色彩(UICM)、水下图像清晰度(UISM)和水下图像对比度(UIConM)组成. UICM描述了白平衡视角,希望这3种颜色尽可能平衡;UISM 主要描述图像的边缘;UIConM 通过将图像划分为块来计算图像的亮度,图像的对比度越高,UIConM 指标越好. UCIQE是色彩浓度、饱和度和对比度的线性组合,用来定量评价水下图像非均匀的色偏、模糊和低对比度的情况. 两者都属于没有参考图像的图像质量评价指标.

$ {\text{UIQM}} = {c_1}{\text{UICM}}+{c_2}{\text{UISM}}+{c_3}{\text{UIConM}}, $

$ {\text{UCIQE}} = {\gamma _1}{{\sigma }_{\text{c}}}+{\gamma _2}{\text{co}}{{\text{n}}_{\text{l}}}+{\gamma _3}{\mu }_{\text{s}}. $

式中:$ {c_1} \sim {c_3} $为用来平衡3个首选项的参数,$ {c_1} $=0.0282$ {c_2} $=0.2953$ {c_3} $=3.5753$ \sigma _{\text{c}} $为色度标准差;$ {\text{co}}{{\text{n}}_{\text{l}}} $为亮度对比;$ \mu_{\text{s}} $为饱和度平均值;$ {\gamma _1} \sim {\gamma _3} $为加权系数,$ {\gamma _1} $=0.4680$ {\gamma _2} $=0.2745$ {\gamma _3} $=0.2576.

为了更直观地展现陆地与水下环境的差异性,对陆地裂缝和水下桥墩壁面进行评估,由于UIQM和UCIQE指标是针对水下环境,PSNR指标为参考图像指标,故不采用这3个指标评估两者的差异性,而选择自然图像质量评估器NIQE[29]指标进行评估. NIQE是基于图像自然场景统计特性(natural scene statistic,NSS)的视觉质量评价指标,它的优势在于无须与参考图像进行比较即可评估图像质量. 这一评估方法依赖于多变量高斯(multivariate Gaussian,MVG)模型,该模型能够捕捉自然图像的关键统计特征,并构建起一个质量评估框架. NIQE计算图像的局部属性,例如梯度的强度和方向,并将这些属性与从大量高品质自然图像中提取的统计数据模型进行对比. 量化图像特征与该属性之间的偏差,NIQE能够评估图像质量,较小的偏差表明图像质量更接近于高质量的自然图像,而较大的偏差则暗示着较低的图像质量.

$ {\mathrm{NIQE}} = \left[ {{{({{\boldsymbol{v}}_{{1}}} - {{\boldsymbol{v}}_{{2}}})}^{\mathrm{T}}}{{\left(\frac{{\sum {\mathbf{1}} +\sum {\mathbf{2}} }}{2}\right)}^{ - {\text{1}}}}({{\boldsymbol{v}}_{{1}}} - {{\boldsymbol{v}}_{2}}})\right]^{1/2}. $

式中:$ {{\boldsymbol{v}}_{{1}}} $$ {{\boldsymbol{v}}_{{2}}} $分别为自然MVG模型和模糊图像MVG模型的均值向量,$ \sum {\mathbf{1}} $$ \sum {\mathbf{2}} $分别为自然MVG模型和模糊图像MVG模型的协方差矩阵.

陆地裂缝NIQE指标为3.875,水下桥墩壁面NIQE指标为4.213. 通过对比发现陆地裂缝的质量较优,水下桥墩壁面的质量较低,两者之间存在一定的差异性.

采用水下机器人采集的1300张水下桥墩壁面图像进行测试评估计算均值,结果如表1所示. 其中,粗体表示最高分.可以看出,所提方法的UIQM、UCIQE、PSNR指标值优于Cycle-Dehaze、Cycle-SNSPGAN和UCL-Dehaze模型的;UCL-Dehaze模型在UIQM指标上获得了最低分,比所提方法低0.134;在UIQM指标上,所提方法比CycleGAN、Cycle-Dehaze分别高出0.095、0.028,与Cycle-SNSPGAN获得的UIQM分数接近. 这说明所提方法的图像整体质量较高. 在UCIQE指标上,所提方法相比第2名Cycle-SNSPGAN,分数高出0.086,而CycleGAN获得分数高于UCL-Dehaze和Cycle-Dehaze的. 这证明所提方法的彩色图像质量较好. 在PSNR指标上,所提方法得分为24.673,相比第2名Cycle-SNSPGAN高出2.636,相比CycleGAN高出5.771,证明改进的CycleGAN具有不错的去噪效果.

表 1   多种水下桥墩裂缝生成算法的定量比较

Tab.1  Quantitative comparison of multiple algorithms for generating underwater bridge pier cracks

模型UIQMUCIQEPSNR
CycleGAN0.7230.33918.902
Cycle-Dehaze0.7900.31420.194
Cycle-SNSPGAN0.8120.35722.037
UCL-Dehaze0.6840.32521.402
所提方法0.8180.44324.673

新窗口打开| 下载CSV


3.3. 视觉比较分析

通过主观视觉方法来验证提出方法的优势,如图5所示,选择几种不同背景的陆地混凝土裂缝图片进行迁移. 可以看出,CycleGAN的处理效果整体一般,对于一些边缘的细节处理较差,图像本身的边缘与中间差异较大. Cycle-Dehaze算法对于低光照以及一些水体杂质产生的雾化有一定的改善,但是整体增强过度,结果偏亮,且图像出现过饱和情况. Cycle-SNSPGAN对于边缘细节部分有所增强,但是图像整体改善不大,仍然偏暗,对比度低. UCL-Dehaze对于图像较暗的问题有所改善,但是却大面积缺少了原来水下桥墩的纹理信息. 所提方法既保留了陆地裂缝信息,也保留了水下桥墩壁面的轮廓信息,图像的亮度以及色彩均有所改变,整体图像的质量有一定提升.

图 5

图 5   多种算法的视觉比较结果

Fig.5   Visual comparison results of multiple algorithms


为了验证真实情况下出现的裂缝和所提方法所转换的裂缝之间是否存在差异,通过测试水下机器人采集到的50张真实水下桥墩裂缝数据比较UCIQE和UIQM指标分数,从而判断转换的水下桥墩裂缝质量的好坏,结果如表2所示. 其中,粗体表示最高分数. 可以看出,所提方法产生的水下桥墩裂缝数据集的UIQM、UCIQE指标分别比实际采集的水下桥墩裂缝图像高0.017和0.020,证明其图像质量接近真实的水下桥墩裂缝.

表 2   真实水下桥墩裂缝与所提方法生成裂缝的无参考指标评估结果

Tab.2  Results of unreferenced metric assessment of real underwater bridge pier cracks and pier cracks generated by proposed method

数据UIQMUCIQE
真实水下桥墩裂缝0.8010.423
所提方法产生的裂缝0.8180.443

新窗口打开| 下载CSV


3.4. 消融实验

为了验证各个模块的有效性,进行消融实验. 研究改进的CycleGAN的生成器的各个模块对增强水下桥墩裂缝质量的效果以及像素感知判别器对裂缝质量提升的影响. 将scSE注意力添加至CycleGAN的生成器中,DehazeFormer模块(DF Block)嵌入到U-Net的颈部,有利于生成器生成高质量水下桥墩裂缝图像. 分别去除每一个模块进行实验评估,效果如表3所示,视觉结果如图6所示. 表3中,粗体表示最高分数,t为消耗时间,parm为参数量. 可以看出,2个模块的添加均对整体模型效果有所改善. 去除scSE注意力后图像UIQM、UCIQE指标分别下降了0.009、0.023,训练所消耗时间降低了0.301 h,参数量降低了5.156×106,图像整体亮度提升一般,PSNR指标下降2.756,存在一些噪声. 去除DehazeFormer模块后,UIQM、UCIQE指标分别下降了0.039、0.061,消耗时间下降了0.533 h,参数量降低了约10×106,但图像较暗,PSNR指标下降6.344,边缘细节不明显. 去除像素感知判别器后,UIQM、UCIQE指标分别下降了0.016、0.024,消耗时间降低了0.202 h,参数量仅下降了1.146×106,图像颜色存在失真,颜色过于增强,PSNR指标下降1.844,噪声明显增多. 改进后模型得到的整体图像细节较为明显,噪声较少,亮度雾化效果都有所改善,获得了最高的指标分数.

表 3   消融实验指标结果

Tab.3  Results of ablation experiment indicators

模型UIQMUCIQEPSNRt/hParm/106
不含scSE注意力0.8090.42021.9173.826109.492
不含DehazeFormer模块0.7790.38218.3293.594104.891
不含PA判别器0.8020.41922.8293.925113.502
完整模型0.8180.44324.6734.127114.648

新窗口打开| 下载CSV


图 6

图 6   改进CycleGAN生成器的消融实验视觉比较

Fig.6   Visual comparison of improved CycleGAN generator ablation experiments


4. 目标检测评估

目标检测的目的是检测图像中感兴趣的物体并确定他们的类别和位置. 通过改进的CycleGAN网络生成水下桥墩裂缝,弥补了水下桥墩裂缝数据稀缺的问题,为后续的目标检测算法在水下机器人工作中的部署奠定基础. RT-DETR实时性能卓越、高精度、无需NMS后处理并且可扩展性较好;YOLOv8在速度和精度的平衡上较优,且一直持续迭代更新. 2种检测方法都能为水下结构检测提供强有力的支持. 为了验证所提方法在目标检测任务中的效果,采用RT-DETRr18[30]和YOLOv8n进行效果验证.

在所提方法生成的裂缝数据中抽取1600张作为训练图像,200张作为验证图像和200张作为测试图像,来评估所提方法生成的水下桥墩裂缝. 利用Labelimg软件对图像进行标注,采用相同的训练配置以及参数. 使用精准率P、召回率R和平均精度mAP检测水下桥墩裂缝的有效性. 精度表示实际为正样本的样本在预测为阳性样本的样本中所占的比例,模型的精度越高,表明模型的错误检测率越低. 召回率表示准确预测的样本与具有正实际值的样本的比率,模型的召回率越高,表明模型的漏检率越低. F1分数是精确率和召回率的调和平均值. mAP是所有类别的精确率-召回率曲线下的平均面积.

$ P = \frac{{{\mathrm{TP}}}}{\rm{TP+FP}}, $

$ R = \frac{\rm{TP}}{\rm{TP+FN}}, $

$ {\text{F1}} = \frac{{2 P R}}{{P+R}}, $

$ {\text{mAP}} = \frac{1}{k}\int_0^1 P (R){\text{d}}R. $

式中: TP表示正确预测的阳性实例,FP表示错误预测的阳性实例,FN表示错误预测的负实例,k 为类别的数量. 通过表4指标可以验证所提方法生成的样本的效果,两者检测的准确率、召回率、F1分数和平均精度均较高,均接近90%. 这说明所提方法生成的水下桥墩裂缝数据质量较好. 主观检测结果示例如图7所示,2种目标检测算法均可检测到裂缝.

表 4   生成样本和真实样本的目标检测效果验证

Tab.4  Validation of target detection effect for generated and real samples

数据模型Precision/%Recall/%F1/%mAP/%
生成样本YOLOv8n88.787.588.186.2
RT-DETRr1888.988.188.586.9
真实样本YOLOv8n89.286.688.085.4
RT-DETRr1889.387.888.586.8

新窗口打开| 下载CSV


图 7

图 7   生成的水下桥墩裂缝的目标检测视觉效果

Fig.7   Visualization of target detection of generated underwater bridge pier cracks


为了凸显生成样本的有效性,将所提方法转换出的水下桥墩裂缝数据的测试集替换为真实的由水下机器人采集的水下桥墩裂缝数据,生成样本和真实样本的目标检测效果验证如表4所示. 其中,粗体表示最好的. 可以看出,真实样本的准确率高于生成样本的准确率,但是在其他3个指标的得分上,生成样本分数更高,总体相差不大. 同时,利用可视化注意力热图Grad-CAM++ (Gradient-weighted Class Activation Mapping Plus Plus) [31]创建热图矩阵,以可视化和理解深度学习模型在执行预测时如何关注输入图像中的重要特征. 通过Grad-CAM++,不仅能够直观展示模型是否捕捉到了裂缝的关键特征,并通过热图的形式,突出显示了对模型输出结果影响最大的像素区域. 这种可视化策略不仅增强了对模型决策过程的理解,而且为进一步优化模型提供了有力的视觉支持,另外还可以体现出所提方法产生的水下桥墩裂缝和真实水下桥墩裂缝的质量. 具体来说,颜色的深浅代表图像中每个位置的重要性,颜色越深,表示模型对该区域的积极反应越强烈,即模型对该区域的关注度越高.

图8所示为2种裂缝的示例,不难发现,图像中的裂缝区域几乎全部用红色显示,且非裂缝区域部分的颜色较弱,说明目标检测算法对2种裂缝的注意是几乎相同的. 综合来看,转换的数据质量和真实数据相差不大,甚至更优,说明方法是有效的. 目标检测实验证明,所提算法能够有效运用在实际目标检测任务上.

图 8

图 8   检测水下桥墩裂缝任务下的热力图对比

Fig.8   Comparison of thermograms under task of detecting cracks in underwater bridge pier


5. 结 论

(1)通过添加scSE注意力以及Dehazeformer模块至CycleGAN网络的生成器,改进CycleGAN网络判别器,以生成高质量水下桥墩裂缝.

(2)与先进的图像转换的增强算法进行对比,并进行目标检测任务测试,证明了改进的CycleGAN能获得较优的水下桥墩裂缝图像,所提方法可以运用在实际目标检测任务中.

(3)通过开源的陆地桥梁裂缝数据以及水下机器人采集的水下桥墩壁面数据实现了水下桥墩裂缝的转换,通过这种方法可以弥补水下桥墩裂缝数据稀缺的问题,为裂缝检测模型提供充足的数据,也能提高后续水下桥墩的检测维护效率.

实验结果表明所提检测算法的精度不佳,未来将围绕水下桥墩裂缝的特性改进裂缝检测算法以提高检测精度和效率,增加裂缝检测的精度.

参考文献

LI X, MENG Q, WEI M, et al

Identification of underwater structural bridge damage and BIM-based bridge damage management

[J]. Applied Sciences, 2023, 13 (3): 1348

DOI:10.3390/app13031348      [本文引用: 1]

ORINAITĖ U, KARALIŪTĖ V, PAL M, et al

Detecting underwater concrete cracks with machine learning: a clear vision of a murky problem

[J]. Applied Sciences, 2023, 13 (12): 7335

DOI:10.3390/app13127335      [本文引用: 1]

KOV’ARI K, PETER G

Continuous strain monitoring in the rock foundation of a large gravity dam

[J]. Rock Mechanics and Rock Engineering, 1983, 16 (3): 157- 171

DOI:10.1007/BF01033277      [本文引用: 1]

FAN X, CAO P, SHI P, et al

An underwater dam crack image segmentation method based on multi-level adversarial transfer learning

[J]. Neurocomputing, 2022, 505: 19- 29

DOI:10.1016/j.neucom.2022.07.036      [本文引用: 1]

HUANG B, KANG F, LI X, et al

Underwater dam crack image generation based on unsupervised image-to-image translation

[J]. Automation in Construction, 2024, 163: 105430

DOI:10.1016/j.autcon.2024.105430      [本文引用: 1]

YE X, LUO K, WANG H, et al

An advanced AI-based lightweight two-stage underwater structural damage detection model

[J]. Advanced Engineering Informatics, 2024, 62: 102553

DOI:10.1016/j.aei.2024.102553      [本文引用: 1]

程风雯, 甘进, 李星, 等

基于DCGAN的水下结构物表面缺陷图像生成

[J]. 长江科学院院报, 2023, 40 (9): 155- 161

DOI:10.11988/ckyyb.20220421      [本文引用: 1]

CHENG Fengwen, GAN Jin, LI Xing, et al

Image generation for surface defects of underwater structures based on deep convolutional generative adversarial networks

[J]. Journal of Changjiang River Scientific Research Institute, 2023, 40 (9): 155- 161

DOI:10.11988/ckyyb.20220421      [本文引用: 1]

王桂平, 陈旺桥, 杨建喜, 等

基于迁移学习的桥梁表观病害检测技术研究

[J]. 铁道科学与工程学报, 2022, 19 (6): 1638- 1646

[本文引用: 1]

WANG Guiping, CHEN Wangqiao, YANG Jianxi, et al

A bridge surface distress detection technology based on transfer learning

[J]. Journal of Railway Science and Engineering, 2022, 19 (6): 1638- 1646

[本文引用: 1]

ZHAO S, SHADABFAR M, ZHANG D, et al

Deep learning-based classification and instance segmentation of leakage-area and scaling images of shield tunnel linings

[J]. Structural Control and Health Monitoring, 2021, 28 (6): e2732

[本文引用: 1]

马金祥, 范新南, 吴志祥, 等

暗通道先验的大坝水下裂缝图像增强算法

[J]. 中国图象图形学报, 2016, 21 (12): 1574- 1584

DOI:10.11834/jig.20161202      [本文引用: 1]

MA Jinxiang, FAN Xinnan, WU Zhixiang, et al

Underwater dam crack image enhancement algorithm based on improved dark channel prior

[J]. Journal of Image and Graphics, 2016, 21 (12): 1574- 1584

DOI:10.11834/jig.20161202      [本文引用: 1]

XIN G, FAN X, SHI P, et al

A fine extraction algorithm for image-based surface cracks in underwater dams

[J]. Measurement Science and Technology, 2023, 34 (3): 035402

DOI:10.1088/1361-6501/ac9db2      [本文引用: 1]

QI Z, LIU D, ZHANG J, et al

Micro-concrete crack detection of underwater structures based on convolutional neural network

[J]. Machine Vision and Applications, 2022, 33 (5): 74

DOI:10.1007/s00138-022-01327-5      [本文引用: 1]

雍子叶, 郭继昌, 李重仪

融入注意力机制的弱监督水下图像增强算法

[J]. 浙江大学学报: 工学版, 2021, 55 (3): 555- 562,570

[本文引用: 1]

YONG Ziye, GUO Jichang, LI Chongyi

Weakly supervised underwater image enhancement algorithm incorporating attention mechanism

[J]. Journal of Zhejiang University: Engineering Science, 2021, 55 (3): 555- 562,570

[本文引用: 1]

范新南, 顾丽萍, 巫鹏, 等

一种仿水下生物视觉的大坝裂缝图像增强算法

[J]. 光电子 激光, 2014, 25 (2): 372- 377

[本文引用: 2]

FAN Xinnan, GU Liping, WU Peng, et al

A dam crack image enhancement algorithm based on underwater biological vision

[J]. Journal of Optoelectronics Laser, 2014, 25 (2): 372- 377

[本文引用: 2]

温佩芝, 陈君谋, 肖雁南, 等

基于生成式对抗网络和多级小波包卷积网络的水下图像增强算法

[J]. 浙江大学学报: 工学版, 2022, 56 (2): 213- 224

[本文引用: 1]

WEN Peizhi, CHEN Junmou, XIAO Yannan, et al

Underwater image enhancement algorithm based on GAN and multi-level wavelet CNN

[J]. Journal of Zhejiang University: Engineering Science, 2022, 56 (2): 213- 224

[本文引用: 1]

ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks [C]//Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2242–2251.

[本文引用: 1]

ROY A G, NAVAB N, WACHINGER C. Concurrent spatial and channel ‘squeeze&excitation’ in fully convolutional networks [C]// Medical Image Computing and Computer Assisted Intervention – MICCAI 2018. Cham: Springer, 2018: 421–429.

[本文引用: 1]

SONG Y, HE Z, QIAN H, et al

Vision transformers for single image dehazing

[J]. IEEE Transactions on Image Processing, 2023, 32: 1927- 1941

DOI:10.1109/TIP.2023.3256763      [本文引用: 1]

LIU Z, LIN Y T, CAO Y, et al. Swin transformer: hierarchical vision transformer using shifted windows [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 10012-10022.

[本文引用: 1]

BA J L, KIROS J R, HINTON G E. Layer normalization [EB/OL]. [2024-06-01]. https://arxiv.org/abs/1607.06450.

[本文引用: 1]

HENDRYCKS D, GIMPEL K. Gaussian error linear units (gelus)[EB/OL]. [2024-06-01]. https://arxiv.org/abs/1606.08415v5.

[本文引用: 1]

WANG P, CHEN P, YUAN Y, et al. Understanding convolution for semantic segmentation [C]// IEEE Winter Conference on Applications of Computer Vision. Lake Tahoe: IEEE, 2018: 1451–1460.

[本文引用: 1]

ENGIN D, GENÇ A, KEMAL EKENEL H. Cycle-dehaze: Enhanced cyclegan for single image dehazing [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Salt Lake City: IEEE, 2018: 825-833.

[本文引用: 1]

WANG Y, YAN X, GUAN D, et al

Cycle-SNSPGAN: towards real-world image dehazing via cycle spectral normalized soft likelihood estimation patch GAN

[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23 (11): 20368- 20382

DOI:10.1109/TITS.2022.3170328      [本文引用: 1]

WANG Y, YAN X, WANG F L, et al

UCL-dehaze: toward real-world image dehazing via unsupervised contrastive learning

[J]. IEEE Transactions on Image Processing, 2024, 33: 1361- 1374

DOI:10.1109/TIP.2024.3362153      [本文引用: 1]

YANG M, SOWMYA A

An underwater color image quality evaluation metric

[J]. IEEE Transactions on Image Processing, 2015, 24 (12): 6062- 6071

DOI:10.1109/TIP.2015.2491020      [本文引用: 1]

PANETTA K, GAO C, AGAIAN S

Human-visual-system-inspired underwater image quality measures

[J]. IEEE Journal of Oceanic Engineering, 2016, 41 (3): 541- 551

DOI:10.1109/JOE.2015.2469915      [本文引用: 1]

YANG X, LI H, YU Y, et al

Automatic pixel-level crack detection and measurement using fully convolutional network

[J]. Computer-Aided Civil and Infrastructure Engineering, 2018, 33 (12): 1090- 1109

DOI:10.1111/mice.12412      [本文引用: 1]

WANG W, YANG Y

A color image fusion model by saturation-value total variation

[J]. Journal of Computational and Applied Mathematics, 2024, 446: 115832

DOI:10.1016/j.cam.2024.115832      [本文引用: 1]

ZHAO Y, LV W, XU S, et al. Detrs beat yolos on real-time object detection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 16965-16974.

[本文引用: 1]

CHATTOPADHAY A, SARKAR A, HOWLADER P, et al. Grad-CAM: generalized gradient-based visual explanations for deep convolutional networks [C]// Proceedings of the IEEE Winter Conference on Applications of Computer Vision. Lake Tahoe: IEEE, 2018: 839–847.

[本文引用: 1]

/