浙江大学学报(工学版), 2026, 60(5): 926-934 doi: 10.3785/j.issn.1008-973X.2026.05.002

土木与建筑工程

微调稳定扩散模型的裂缝图像数据集扩充方法

吴杰,, 韩贝林, 张舣航, 邹超, 辛莉峰, 黄仕平,

1. 武汉轻工大学 土木工程与建筑学院,湖北 武汉 430023

2. 广东工业大学 土木与交通工程学院,广东 广州 510006

3. 西北工业大学 力学与交通运载工程学院,陕西 西安 710072

4. 华南理工大学 土木与交通学院,广东 广州 510641

Method for augmenting crack image datasets via fine-tuning of stable diffusion models

WU Jie,, HAN Beilin, ZHANG Yihang, ZOU Chao, XIN Lifeng, HUANG Shiping,

1. School of Civil Engineering and Architecture, Wuhan Polytechnic University, Wuhan 430023, China

2. School of Civil and Transportation Engineering, Guangdong University of Technology, Guangzhou 510006, China

3. School of Mechanics and Transportation Engineering, Northwestern Polytechnical University, Xi’an 710072, China

4. School of Civil Engineering and Transportation, South China University of Technology, Guangzhou 510641, China

通讯作者: 黄仕平,男,教授. orcid.org/0000-0002-0092-1753. E-mail:ctasihuang@scut.edu.cn

收稿日期: 2025-09-3  

基金资助: 国家自然科学基金资助项目(52208445, 52572372);武汉轻工大学科研资助项目(2025Y009).

Received: 2025-09-3  

Fund supported: 国家自然科学基金资助项目(52208445,52572372);武汉轻工大学科研资助项目(2025Y009).

作者简介 About authors

吴杰(1988—),男,讲师,从事结构健康监测研究.orcid.org/0000-0003-1069-9372.E-mail:wujiemc@whpu.edu.cn , E-mail:wujiemc@whpu.edu.cn

摘要

针对裂缝图像数据集稀缺和类别不平衡问题,提出基于低秩自适应(LoRA)微调稳定扩散模型的裂缝图像生成与数据集扩充方法. 在冻结稳定扩散模型主干权重的基础上,通过在U-Net模型的注意力层插入低秩适配矩阵对注意力权重进行微调,实现裂缝语义特征的高效迁移与精准建模. 与主流生成模型(DCGAN、WGAN-GP和StyleGAN)及未微调的稳定扩散模型的对比实验结果表明,所提方法在裂缝结构清晰度、纹理保真度和背景一致性方面表现最优,在各项生成图像质量评估指标上均取得显著进步. 将生成的裂缝图像与真实数据集DeepCrack进行混合训练,在3种典型分割模型(U-Net、TransUNet和MobileViT)上开展性能对比实验. 结果显示,所提方法在精确率、召回率、F1分数和交并比上均显著优于基准模型,其中在TransUNet上分别提升了5.9、7.2、6.4和5.6个百分点. 所提方法能够有效生成结构真实、形态多样的裂缝图像,显著提升分割模型的鲁棒性与泛化能力;在数据稀缺、标注困难及高危环境等场景中,具备广阔的应用潜力.

关键词: 扩散模型 ; 裂缝分割 ; 深度学习 ; 结构健康监测 ; 裂缝数据集

Abstract

To address the issues of data scarcity and class imbalance in crack image datasets, a crack image generation and dataset augmentation method based on low-rank adaptation (LoRA) fine-tuning of stable diffusion models was proposed. By freezing the backbone of stable diffusion and inserting low-rank adaptation matrices into the attention layers of the U-Net model to fine-tune the attention weights, efficient transfer and precise modeling of crack semantic features were achieved. Comparative experiments with mainstream generative models (DCGAN, WGAN-GP, and StyleGAN) and the original stable diffusion demonstrated that the proposed method achieved superior crack clarity, texture fidelity, and background consistency, with significant improvements in multiple image quality metrics. When combined with the DeepCrack dataset for mixed training, the generated images significantly improve the segmentation performance of U-Net, TransUNet, and MobileViT. In particular, on TransUNet, precision, recall, F1-score, and IoU are improved by 5.9, 7.2, 6.4, and 5.6 percentage points, respectively. The proposed method effectively generated crack images with realistic structures and diverse morphologies, enhancing the robustness and generalization ability of segmentation models, and demonstrated strong potential in scenarios with limited data, difficult annotation, and high-risk environments.

Keywords: diffusion model ; crack segmentation ; deep learning ; structural health monitoring ; crack dataset

PDF (3964KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

吴杰, 韩贝林, 张舣航, 邹超, 辛莉峰, 黄仕平. 微调稳定扩散模型的裂缝图像数据集扩充方法. 浙江大学学报(工学版)[J], 2026, 60(5): 926-934 doi:10.3785/j.issn.1008-973X.2026.05.002

WU Jie, HAN Beilin, ZHANG Yihang, ZOU Chao, XIN Lifeng, HUANG Shiping. Method for augmenting crack image datasets via fine-tuning of stable diffusion models. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(5): 926-934 doi:10.3785/j.issn.1008-973X.2026.05.002

裂缝检测是结构健康监测中的关键任务,广泛应用于桥梁、隧道、道路等基础设施的安全评估[1]. 随着基础设施的老化和使用频率的增加,及时发现和修复裂缝对于确保结构安全至关重要[2]. 计算机视觉和深度学习技术在裂缝检测领域取得了显著进展,特别是在自动化检测、实时监测和大规模数据处理方面[3-4]. 由于裂缝图像的采集成本较高、数据样本稀缺且裂缝形态复杂多变,现有的裂缝图像数据集面临类别不平衡和样本不足的问题[5-6]. 这些问题导致传统的深度学习方法在裂缝检测任务中表现较差,模型容易出现过拟合现象,且泛化能力较弱[7]. 如何有效扩充裂缝图像数据集,提升深度学习模型在复杂场景下的检测性能,已成为重要课题. 传统的数据集扩充方法通过旋转、翻转、缩放、模糊处理和噪声添加等手段来增加样本数量. 尽管这些方法在一定程度上能够扩充数据量,但它们仅对原始裂缝图像进行简单的几何变换,生成的图像在裂缝形态和背景特征方面缺乏多样性. 裂缝的形状、宽度、长度和分布方式差异显著,传统方法难以涵盖这些多样化的裂缝特征. 此外,裂缝图像的背景涉及不同的材料纹理、光照条件、污渍、阴影等因素,这些背景特征对裂缝的可见性及模型的识别能力具有重要影响. 如何在数据集扩充过程中根本性地增加裂缝形态的多样性,已成为模型训练前数据集优化的关键挑战.

大量研究者使用生成对抗网络(generative adversarial network,GAN)[8]生成裂缝图像,并对GAN的网络结构、损失函数及训练策略等方面进行改进以适用于裂缝生成. Zhong等[9]提出改进的加深Wasserstein梯度惩罚生成对抗网络WGAN-GP,用于生成混凝土路面裂缝图像数据集,并在增强后的数据集上使用YOLOv3模型,平均精度达到81.98%. Dong等[10]基于StyleGAN开发的数据增强算法通过扩充裂缝图像数据集来解决数据采集困难的问题. Dunphy等[11]提出基于GAN的多类损伤图像生成方法,评估合成图像在混凝土表面多类损伤检测的有效性. Pei等[12]将变分自编码器(variational autoencoder, VAE)得到的隐变量值作为深度卷积生成对抗网络(deep convolutional generative adversarial network, DCGAN)模型生成器的输入,生成路面裂缝图像,并将合成图像与实际训练图像一起用于训练更高效的Faster R-CNN模型. 程风雯等[13]提出基于DCGAN的水下结构物表面缺陷图像生成方法,该方法为如大坝、引水隧洞的水工结构物的健康检测提供了技术支撑. 赵阳等[14]引入梯度惩罚损失与相似性度量损失,提出改进的CycleGAN图像风格迁移网络,以此生成高质量混凝土坝水下裂缝图像,解决了数据样本不足的问题.

尽管GAN在裂缝图像生成方面取得了较好的成果,但训练过程中的不稳定性以及模式崩塌问题,使得生成的图像质量和多样性受到限制. GAN使用随机向量作为生成器的输入,导致生成的裂缝图像在轮廓和尺寸上不稳定,缺乏人为控制和编辑的能力,生成图像的风格变化随机,难以实现数据均衡的目标. 相比之下,扩散模型通过逐步降噪生成图像,拥有更强的稳定性和细节还原能力. 尤其是稳定扩散模型(stable diffusion,SD),通过在潜在空间(latent space)中进行扩散采样,采用文本提示词引导模型生成图像,能够显著提高生成图像的质量,在多个应用领域(如服装设计[15]、动漫设计[16])有优异表现. 在使用SD进行裂缝图像生成任务时,尽管使用了大量详细的提示词,生成的裂缝图像仍无法达到预期效果,存在裂缝像素不平衡、裂缝图像角度与实际工程检测结果严重不符等问题. 本研究提出基于低秩自适应[17](low-rank adaptation,LoRA)微调稳定扩散模型的裂缝图像数据集扩充方法. 通过在跨模态交叉注意力层中引入低秩更新,对裂缝的形态、尺度与纹理特征进行建模与适配,从而实现面向裂缝图像生成任务的参数高效微调.

1. 稳定扩散模型与低秩自适应微调技术

1.1. 扩散模型

扩散模型是在图像生成任务中表现突出的生成模型,其代表性结构为去噪扩散概率模型[18](denoising diffusion probabilistic models,DDPM). DDPM通过模拟马尔可夫过程,将复杂的图像生成任务转化为逐步加噪与去噪的过程,实现从纯高斯噪声中重构出高质量图像的目的. 与传统的GAN相比,DDPM在训练稳定性、生成样本的多样性以及保真度方面表现更优. 如图1所示,DDPM主要包括2个阶段:正向扩散过程和反向扩散过程. 在正向过程中,模型从原始图像$ {\boldsymbol{x}}_{0} $出发,逐渐增加高斯噪声$ \boldsymbol{\varepsilon }\sim {N}(0,I) $,得到接近标准正态分布的随机噪声$ {\boldsymbol{x}}_{t} $,该过程可表示为长度为$ t $的马尔可夫链,其目的是构造稳定的噪声生成路径. 由$ {\boldsymbol{x}}_{0} $加噪至$ {\boldsymbol{x}}_{t} $

图 1

图 1   去噪扩散概率模型的扩散过程

Fig.1   Diffusion process of denoising diffusion probabilistic model


$ {{\boldsymbol{x}}_t} = \sqrt {{{\bar \alpha }_t}} {\mkern 1mu} {{\boldsymbol{x}}_0}+\sqrt {1 - {{\bar \alpha }_t}} {\mkern 1mu} {\boldsymbol{\varepsilon}} ,\;\;{\overline{\alpha }}_{t}=\displaystyle\prod\limits_{i=1}^{t}{\alpha }_{i}. $

反向过程通过预测噪声$ \boldsymbol{\varepsilon } $,利用神经网络逐步去噪,最终将随机噪声$ {\boldsymbol{x}}_{t} $逐步还原为原始图片$ {\boldsymbol{x}}_{0} $

$ {{\boldsymbol{x}}_{t - 1}} = \frac{1}{{\sqrt {{\alpha _t}} }}\left( {{{\boldsymbol{x}}_t} - \frac{{1 - {\alpha _t}}}{{\sqrt {1 - {{\bar \alpha }_t}} }}{\mkern 1mu} {{\boldsymbol{\varepsilon}} _\theta }\left( {{{\boldsymbol{x}}_t},{\mkern 1mu} t} \right)} \right)+{\sigma _t}{\mkern 1mu} {\boldsymbol{z}} . $

式中:$ {\boldsymbol{\varepsilon }}_{\theta } $为噪声估计函数,用于估计真实噪声$ \boldsymbol{\varepsilon } $$ \theta $为模型训练参数;$ \boldsymbol{z}\sim {N}(0,{\boldsymbol{I}}) $. $ {\sigma }_{\text{t}}\boldsymbol{z} $为预测噪声与真实噪声的误差. 在实际的反向过程中,由于无法直接获得数据的真实噪声分布,DDPM引入基于残差模块(residual block)和注意力模块(attention block)的U-Net模型,求解噪声估计函数,对真实噪声进行逼近和预测;引入时间嵌入(time embedding)以增强模型对不同时间步长的感知能力,如图2所示.

图 2

图 2   去噪扩散概率模型

Fig.2   Denoising diffusion probabilistic model


1.2. 稳定扩散模型

DDPM直接在高维像素空间中进行扩散和去噪操作,导致计算成本高、采样速度慢,限制了其在实际应用中的推广. DDPM属于无条件生成模型,缺乏对外部信息(如文本、标签)的有效建模能力. SD通过引入潜在扩散模型[19](latent diffusion model, LDM),使扩散过程在潜在空间中进行. LDM的核心思想是通过预训练的VAE将原始图像压缩至低维潜在表示(latent representation),并仅在该潜在空间中执行扩散与去噪过程,如图3所示. 此外,稳定扩散模型结合对比语言-图像预训练模型(contrastive language–image pre-training,CLIP)获取文本嵌入向量,并将文本嵌入向量作为条件输入引入扩散过程中的U-Net模型,实现对图像生成过程的精细控制,如图4所示.

图 3

图 3   潜在扩散模型

Fig.3   Latent diffusion model


图 4

图 4   稳定扩散模型框架图

Fig.4   Framework diagram of stable diffusion model


SD通过文本引导生成逼真的各类图像,当输入详细的文本提示词生成裂缝时,生成的裂缝图像存在真实性差、角度不合理、形态偏差等问题,如图5所示. 开源的Stable Diffusion v1.5大模型(下文简称SDv1.5)在训练过程中使用的是通用的图像-文本数据集(如LAION-5B、COCO),未对裂缝这一特定主题进行细化学习. 本研究采用LoRA微调技术对SDv1.5进行定向微调,使模型能够生成更加准确、细致的裂缝图像,避免原始SDv1.5在生成过程中出现的角度错误和细节偏差. 微调后的模型能够生成更高质量、更精确的裂缝图像,确保生成结果的一致性和高质量.

图 5

图 5   使用稳定扩散模型生成的裂缝图像

Fig.5   Crack images generated using stable diffusion model


1.3. 低秩自适应

LoRA是高效的大模型微调技术,能够在保持预训练模型主干结构和参数不变的前提下,通过引入少量可训练参数,实现对模型生成能力的定向优化. LoRA的核心思想是使用低秩矩阵分解对模型权重进行增量式调整. 如图6所示,在微调过程中,原始权重矩阵$ \boldsymbol{W}\in {\mathbf{R}}^{{{d}_{\text{out}}}\times {{d}_{\text{in}}}} $被冻结,在此基础上引入可训练的低秩矩阵$ \boldsymbol{A}=\boldsymbol{U}\times \boldsymbol{D} $,微调后的权重$ {\boldsymbol{W}}^{*}=\boldsymbol{W}+\boldsymbol{U}\times \boldsymbol{D} $,最终输出微调后的结果$ \boldsymbol{Y}={\boldsymbol{W}}^{*}\times \boldsymbol{x} $. $ \boldsymbol{U} $$ \boldsymbol{D} $是微调过程中唯一参与训练的参数,这种方式大幅减少了训练开销,降低了过拟合风险,特别适用于数据有限、任务特定的微调场景. 在使用LoRA微调SD时,训练过程先冻结原始模型的全部参数,并在U-Net的交叉注意力模块中注入可训练的低秩矩阵[20]. LoRA通过对注意力模块中的关键映射矩阵$ {\boldsymbol{W}}_{\boldsymbol{Q}},{\boldsymbol{W}}_{\boldsymbol{K}},{\boldsymbol{W}}_{\boldsymbol{V}},{\boldsymbol{W}}_{\boldsymbol{O}} $进行结构化插入与低秩分解,并引入可训练的增量更新,从而增强模型在潜在空间去噪过程中的语义控制能力. 通过仅对这些注意力相关的线性映射进行低秩更新,LoRA在保持模型主体参数不变的前提下,实现了高效且稳定的领域特化训练,使模型能够学习特定语义方向的分布偏移与结构模式. LoRA的低秩增量更新机制让SDv1.5能够有效适配混凝土裂缝图像生成任务,模型在扩散过程中的语义响应能力得到增强,能够捕捉裂缝的细粒度纹理、连通性几何特征与局部结构变化,显著提升生成图像的结构保真度与语义一致性.

图 6

图 6   使用低秩自适应技术微调稳定扩散模型的流程图

Fig.6   Flowchart for fine-tuning stable diffusion model via low-rank adaptation technology


2. 低秩自适应微调稳定扩散模型生成裂缝图像

图7所示,基于LoRA技术对SDv1.5进行微调以生成裂缝图像的完整流程分为3个阶段. 1)微调数据集输入阶段:准备60张具有代表性的混凝土裂缝图像,这些图像覆盖工程结构中常见的多种裂缝类型,包括横向裂缝、纵向裂缝、网状裂缝、宽裂缝以及细裂缝等,确保训练样本在裂缝形态上的多样性. 为每幅裂缝图像构建包含形态特征、尺度属性及背景纹理信息的精细化文本提示. 通过对裂缝结构特征的显式语义描述,模型在训练过程中能够建立裂缝语义与潜在空间几何特征之间的对应关系,使跨模态交叉注意力在去噪过程中能够更加准确地捕获裂缝相关的细粒度结构模式,显著增强模型对裂缝细节的生成能力. 2)LoRA微调模型阶段:在保持稳定扩散模型主干网络权重完全冻结的前提下,仅在U-Net中的跨模态交叉注意力层插入低秩矩阵,用于学习裂缝图像的特征分布. 训练过程中仅更新LoRA相关参数,其余网络部分保持不变,从使模型能够以极低的训练开销实现对裂缝场景的快速领域适配. 微调完成后得到的LoRA权重文件存储了针对裂缝结构的增量语义信息,可在推理阶段与原模型权重叠加使用. 在训练设置方面,选用SDv1.5作为预训练模型,训练轮数设为100,优化器采用AdamW. 初始学习率为0.001,并结合Cosine Annealing策略进行动态调整. 输入图像分辨率统一为512×512,批大小设置为8. 在LoRA参数配置中,Network Alpha与Network Dimension均设为32. 3)裂缝图像生成阶段:加载微调后的权重文件,输入裂缝相关提示词,SD在潜在空间中执行条件扩散采样过程,逐步反演噪声生成与输入语义一致的裂缝图像. 由于裂缝结构高度依赖细粒度几何形态与背景纹理分布,LoRA在交叉注意力层的低秩更新能够有效调整潜在空间中注意力的聚焦方式,使模型在采样过程中更关注裂缝的方向性、宽度及尺度变化等关键结构特征. 与微调前的模型相比,领域特化后的模型在生成结果的结构一致性和细节保真度均显著提升,部分生成示例如图8所示.

图 7

图 7   使用低秩自适应技术微调稳定扩散模型生成裂缝图像的流程图

Fig.7   Flowchart for fine-tuning stable diffusion model via low-rank adaptation technology for crack image generation


图 8

图 8   使用低秩自适应技术微调稳定扩散模型生成的裂缝图像

Fig.8   Crack images generated by fine-tuning stable diffusion model via low-rank adaptation technology


将由微调稳定扩散模型生成的120张裂缝图像作为裂缝分割实验的训练数据集,采用Labelme工具进行精细化标注. 为了保证标注质量,标注任务由2名具有丰富裂缝图像标注经验的研究者完成(人均标注裂缝图像超过500张). 在初步标注完成后,另一名研究者对全部样本进行人工复核与一致性检查,对存在歧义或边界模糊的样本重新修订,确保标注区域边界清晰、连贯且准确反映裂缝真实形态. 标注完成后的部分示例如图9所示,可见生成裂缝样本的边界信息得到良好保留,标签区域与裂缝纹理特征高度一致.

图 9

图 9   使用Labelme标注前后的裂缝图像

Fig.9   Crack images before and after Labelme annotation


3. 图像质量对比分析

为了全面评估不同生成模型在裂缝图像质量方面的表现,从主观视觉感知与客观定量指标2个层面对生成结果进行对比分析. 实验共选取5种裂缝图像生成方法进行比较:DCGAN[21]、WGAN-GP[22]、StyleGAN[23]、微调前的SD以及本研究提出的基于LoRA微调的SD. 所有模型均采用与微调SD相同的裂缝数据集作为训练集,每种模型均生成500张512×512像素大小的裂缝图像用于后续分析.

3.1. 主观视觉比较分析

主观视觉比较反映不同生成模型在裂缝图像质量上的差异,从裂缝结构清晰度、纹理细节表现、背景一致性以及整体真实感等方面对生成结果进行主观视觉分析,生成的裂缝图像示例如图10所示. 从整体观察结果来看,DCGAN生成的裂缝图像质量最差,生成样本中裂缝边缘模糊、裂缝形状单一,存在大量伪影和噪声斑块,整体分辨率较低,难以准确表现裂缝的形态特征. WGAN-GP相比DCGAN在稳定性与纹理连续性方面有所改善,裂缝轮廓更加连贯,背景灰度分布趋于自然,但仍存在裂缝形状单一、灰度过渡生硬问题. StyleGAN的视觉效果进一步提升,生成的裂缝走向较为自然,裂缝与背景的对比度较高,整体具有一定的真实感,但部分图像仍出现细节缺失与表面纹理不均的现象. 微调前的SD在视觉表现上具有较高的清晰度和较好的图像多样性,但裂缝的形态往往不符合真实结构特征,部分样本呈现出夸张或不合理的裂缝走向,难以反映混凝土表面的真实破损模式. 基于LoRA微调的SD在各方面表现最为优越,生成的裂缝边缘清晰、形状多样且连续性强,能够准确刻画不同方向与尺度下的裂缝特征;图片背景纹理自然,与真实混凝土表面分布高度一致,图像整体真实感和结构一致性显著优于其他方法.

图 10

图 10   使用不同模型生成的裂缝图像示例

Fig.10   Examples of crack images generated by different models


3.2. 客观定量分析

选取Inception分数IS、Frechet初始距离FID、核初始距离KID和学习感知图像块相似度LPIPS作为评估指标对不同模型的图像生成结果进行定量分析,各模型的评估结果如表1所示. IS的数值越大,表示生成图像的语义清晰度与多样性越强;FID、KID和LPIPS的数值越小,表示生成结果在特征分布及感知空间上更接近真实图像. 可以看出,GAN系列模型(DCGAN、WGAN-GP、StyleGAN)的整体生成质量较低,FID和KID指标均较大,说明其生成的裂缝图像在特征分布上与真实样本差异明显. 其中DCGAN的FID=314.225,LPIPS=0.646,表明其生成图像存在较强的模糊与噪声特征;WGAN-GP和StyleGAN在训练稳定性与图像结构上有所提升,但仍存在纹理细节不足和裂缝形态单一问题. 微调前的SD的IS=2.993,接近真实训练集(IS=2.996),表明其生成样本具有一定的清晰度和多样性,但FID(292.201)与LPIPS(0.582)均较高,说明该模型生成图像虽然语义丰富,但在裂缝结构和感知一致性上与真实图像仍存在明显差距. 本研究所提模型的各项指标均有改善:FID降至116.624,KID降至0.055,LPIPS降至0.390;同时IS保持在2.989,与真实数据集基本一致. 这表明LoRA微调有效增强了SD对裂缝语义与结构特征的建模能力,使生成图像在清晰度、纹理细节与整体真实感方面均显著优于对比模型.

表 1   不同模型在裂缝图像生成任务中的定量分析结果

Tab.1  Quantitative analysis of different models for crack image generation

模型IS(↑)FID(↓)KID(↓)LPIPS(↓)
训练集2.996
DCGAN1.232314.2250.3550.646
WGAN-GP1.510162.9390.1430.420
StyleGAN2.016150.2530.1200.418
微调前的SD2.993292.2010.0090.582
本研究2.989116.6240.0550.390

新窗口打开| 下载CSV


综上所述,所提模型不仅在主观视觉效果上显著提升了裂缝图像的真实性与结构一致性,也能有效改善客观指标. 这表明在数据稀缺条件下,LoRA微调稳定扩散模型能够有效生成高质量的裂缝图像,为裂缝分割模型的训练提供可靠的数据支持.

4. 裂缝分割实验

为了评估LoRA微调后SD生成的裂缝图像对分割模型性能的影响,使用3种不同架构的分割模型进行测试:U-Net [24](CNN架构)、TransUNet[25](Transformer架构)和MobileVIT[26](CNN-Transformer混合架构).

4.1. 数据集构建与准备

数据集DeepCrack[27]包含300张训练图像和237张测试图像,涵盖多尺度裂缝特征与复杂背景信息. 训练集占总数据量的约55%,样本规模有限. 考虑到裂缝分割任务对像素级标注的强依赖及其高昂的人工成本,本研究在原有300张训练样本的基础上,利用LoRA微调后的SD生成新的120张高质量的裂缝图像,使训练集规模提升约40%. 这些生成样本在裂缝形态、宽度及纹理分布方面与真实样本高度一致,有效提升了数据集的结构多样性与特征丰富度,为模型训练提供了更充分的结构信息. 为了进一步对比不同数据增强策略的效果,采用随机旋转、缩放、仿射变换等传统几何增强方式对DeepCrack数据集进行同等规模的扩充. 最终的数据集分布如表2所示,其中NS为样本数量,PT为训练集样本占比,NST为训练集样本数量,DC表示原始DeepCrack数据集,ADU表示传统数据增强方法,AIGC表示基于LoRA微调SD生成的增强数据.

表 2   对比实验中不同数据集的样本分布

Tab.2  Sample distribution of different datasets in comparative experiments

实验组NSPT/%NST
训练集测试集DCADUAIGC
130023755.8300
236023760.330060
342023763.9300120
436023760.330060
542023763.9300120

新窗口打开| 下载CSV


4.2. 实验设计

为了系统分析不同数据增强方式及扩充规模对裂缝分割性能的影响,设计5组实验:实验组1使用原始DeepCrack训练集(300张图像),不进行任何数据增强;实验组2在原始训练集基础上新增60张通过传统数据集扩充得到的样本;实验组3在原始训练集基础上新增120张传统扩充样本;实验组4在原始训练集基础上新增60张由LoRA微调SD生成的裂缝图像;实验组4在原始训练集基础上新增120张微调后生成的裂缝图像. 实验评估指标包括精确率P、召回率R、F1分数和交并比IoU. 使用PyTorch深度学习框架训练模型,开发语言为Python,CPU为Intel(R) Core(TM) i5-13400F、GPU为NVIDIA GeForce RTX 3090(24 GB). 在训练参数设置方面,训练轮数设为500,优化器选用AdamW. 初始学习率为0.0001,并采用Cosine Annealing策略进行动态调整. 动量参数设置为0.9,批大小为8. 实验中,所有模型的训练都在相同硬件环境下进行,以确保结果的可比性.

4.3. 结果分析

表3所示为3种分割模型在不同实验条件下的性能对比. 可以看出,相较于仅使用基准数据集的训练结果,适当扩充训练数据集能够显著提升裂缝分割模型的整体性能,精确率和召回率指标优势明显. 本研究提出的数据扩充方法优于传统的数据扩充方式,特别是在使用TransUNet进行训练时,实验组5的各项评价指标均有明显提升. 具体而言,与基准数据集相比,PR、F1和IoU分别提升了5.9、7.2、6.4和5.6个百分点;相较于采用传统的数据集扩充方法(实验组2和实验组3),实验组5的性能表现更好. 实验结果表明,实验组5在与基准数据集及传统扩充方法的对比中,对模型各项性能的提升最为显著,有效增强了模型在应对复杂裂缝形态及不规则背景条件下的鲁棒性和泛化能力.

表 3   混合数据集在不同模型上的分割性能对比

Tab.3  Segmentation performance comparison of different models on mixed dataset %

实验组U-NetTransUNetMobileVIT
PRF1IoUPRF1IoUPRF1IoU
1(基准数据集)78.876.277.570.680.279.579.870.581.279.080.071.1
279.476.577.970.983.183.583.272.881.479.280.271.6
380.577.178.771.583.285.284.174.582.981.482.172.6
479.677.478.571.483.284.883.973.582.583.883.173.0
581.578.680.572.886.186.786.276.185.984.785.374.2

新窗口打开| 下载CSV


5. 结 语

本研究提出基于LoRA微调SD的裂缝图像数据集扩充方法,旨在为深度学习算法的训练提供低成本且高质量获得全新数据集的手段,提高裂缝检测的性能. 通过与主流生成模型(包括DCGAN、WGAN-GP、StyleGAN)及未微调SD的对比分析,验证所提方法在结构清晰度、纹理保真度、背景一致性与整体真实感等方面的显著优势. 客观指标与主观视觉对比结果一致表明,LoRA微调有效提升了模型的生成质量与稳定性. 在裂缝分割实验中,结合生成数据的模型在多种架构(U-Net、TransUNet、MobileViT)下均获得明显性能提升,证明生成样本在提升模型鲁棒性与泛化能力方面的有效性. 所提方法生成的裂缝图像逼真、形态多样、裂缝图像角度符合工程实际. 所提方法在其他数据匮乏或采集受限的场景中同样具有重要潜力. 例如,在水下结构检测、遥感裂缝识别及高危环境监测等任务中,基于LoRA微调的生成模型可快速生成多样化的高质量样本,有效缓解数据采集困难、样本不平衡问题,具有良好的工程应用前景. 所提方法在生成质量、数据扩充效果和模型性能提升方面均展现出良好的综合优势,为基于生成模型的基础设施智能检测提供了新的研究方向与技术支撑. 所提方法存在一定局限性:1)生成图像的物理真实性与结构一致性仍依赖于原始训练数据的多样性,当原始样本覆盖不足时,生成模型可能出现裂缝形态单一或背景纹理重复问题. 2)LoRA微调参数的选择与训练稳定性对生成质量影响较大,不同超参数组合在生成多样性与结构保真度之间仍需平衡. 3)裂缝图像的像素级标注仍需人工完成,标注过程耗时且依赖专家经验,限制了大规模数据集的构建效率. 未来的研究工作将进一步优化LoRA微调策略与训练,以提升模型的可控生成能力和跨场景适应性,探索基于多模态提示的生成机制,实现文本、图像与结构语义的联合引导.

参考文献

SUN L, SHANG Z, XIA Y, et al

Review of bridge structural health monitoring aided by big data and artificial intelligence: from condition assessment to damage detection

[J]. Journal of Structural Engineering, 2020, 146 (5): 04020073

DOI:10.1061/(ASCE)ST.1943-541X.0002535      [本文引用: 1]

DENG L, SUN T, YANG L, et al

Binocular video-based 3D reconstruction and length quantification of cracks in concrete structures

[J]. Automation in Construction, 2023, 148: 104743

DOI:10.1016/j.autcon.2023.104743      [本文引用: 1]

CHA Y J, ALI R, LEWIS J, et al

Deep learning-based structural health monitoring

[J]. Automation in Construction, 2024, 161: 105328

DOI:10.1016/j.autcon.2024.105328      [本文引用: 1]

吴杰, 黄楚越, 韩贝林, 等

基于深度学习和图像处理的螺栓损伤检测

[J]. 哈尔滨工程大学学报, 2025, 46 (9): 1754- 1764

DOI:10.11990/jheu.202403035      [本文引用: 1]

WU Jie, HUANG Chuyue, HAN Beilin, et al

Bolt damage detection based on deep learning and image processing

[J]. Journal of Harbin Engineering University, 2025, 46 (9): 1754- 1764

DOI:10.11990/jheu.202403035      [本文引用: 1]

MAEDA H, KASHIYAMA T, SEKIMOTO Y, et al

Generative adversarial network for road damage detection

[J]. Computer-Aided Civil and Infrastructure Engineering, 2021, 36 (1): 47- 60

DOI:10.1111/mice.12561      [本文引用: 1]

DEEPA D, SIVASANGARI A

ESSR-GAN: enhanced super and semi supervised remora resolution based generative adversarial learning framework model for smartphone based road damage detection

[J]. Multimedia Tools and Applications, 2024, 83 (2): 5099- 5129

DOI:10.1007/s11042-023-15850-8      [本文引用: 1]

XU B, LIU C

Pavement crack detection algorithm based on generative adversarial network and convolutional neural network under small samples

[J]. Measurement, 2022, 196: 111219

DOI:10.1016/j.measurement.2022.111219      [本文引用: 1]

CRESWELL A, WHITE T, DUMOULIN V, et al

Generative adversarial networks: an overview

[J]. IEEE Signal Processing Magazine, 2018, 35 (1): 53- 65

DOI:10.20944/preprints202212.0191.v1      [本文引用: 1]

ZHONG J, JU H, ZHANG W, et al

A deeper generative adversarial network for grooved cement concrete pavement crack detection

[J]. Engineering Applications of Artificial Intelligence, 2023, 119: 105808

DOI:10.1016/j.engappai.2022.105808      [本文引用: 1]

DONG J, WANG N, FANG H, et al

Innovative method for pavement multiple damages segmentation and measurement by the Road-Seg-CapsNet of feature fusion

[J]. Construction and Building Materials, 2022, 324: 126719

DOI:10.1016/j.conbuildmat.2022.126719      [本文引用: 1]

DUNPHY K, FEKRI M N, GROLINGER K, et al

Data augmentation for deep-learning-based multiclass structural damage detection using limited information

[J]. Sensors, 2022, 22 (16): 6193

DOI:10.3390/s22166193      [本文引用: 1]

PEI L, SUN Z, XIAO L, et al

Virtual generation of pavement crack images based on improved deep convolutional generative adversarial network

[J]. Engineering Applications of Artificial Intelligence, 2021, 104: 104376

DOI:10.1016/j.engappai.2021.104376      [本文引用: 1]

程风雯, 甘进, 李星, 等

基于DCGAN的水下结构物表面缺陷图像生成

[J]. 长江科学院院报, 2023, 40 (9): 155- 161

DOI:10.11988/ckyyb.20220421      [本文引用: 1]

CHENG Fengwen, GAN Jin, LI Xing, et al

Image generation for surface defects of underwater structures based on deep convolutional generative adversarial networks

[J]. Journal of Changjiang River Scientific Research Institute, 2023, 40 (9): 155- 161

DOI:10.11988/ckyyb.20220421      [本文引用: 1]

赵阳, 康飞, 万刚

基于改进CycleGAN与YOLOv8s的混凝土坝水下裂缝识别方法

[J]. 水电能源科学, 2025, 43 (4): 158- 162

DOI:10.20040/j.cnki.1000-7709.2025.20240874      [本文引用: 1]

ZHAO Yang, KANG Fei, WAN Gang

Underwater crack identification for concrete dams based on improved CycleGAN and YOLOv8s

[J]. Water Resources and Power, 2025, 43 (4): 158- 162

DOI:10.20040/j.cnki.1000-7709.2025.20240874      [本文引用: 1]

吴海鸣, 陈敬玉

基于AIGC技术的民族服饰设计研究: 以畲族为例

[J]. 丝绸, 2025, 62 (1): 20- 29

DOI:10.3969/j.issn.1001-7003.2025.01.003      [本文引用: 1]

WU Haiming, CHEN Jingyu

Research on ethnic costume design based on AIGC technology: taking the She ethnic group as an example

[J]. Silk, 2025, 62 (1): 20- 29

DOI:10.3969/j.issn.1001-7003.2025.01.003      [本文引用: 1]

师妹华

AIGC技术赋能江苏动画产业研究与应用

[J]. 天津美术学院学报, 2024, (3): 18- 21

DOI:10.3969/j.issn.1008-8822.2024.03.004      [本文引用: 1]

SHI Meihua

Research and application of AIGC technology empowering animation industry in Jiangsu Province

[J]. Journal of Tianjin Academy of Fine Arts, 2024, (3): 18- 21

DOI:10.3969/j.issn.1008-8822.2024.03.004      [本文引用: 1]

HU E J, SHEN Y, WALLIS P, et al. LoRA: low-rank adaptation of large language models [EB/OL]. (2021–10–16)[2025–07–12]. https://arxiv.org/pdf/2106.09685.

[本文引用: 1]

NICHOL A Q, DHARIWAL P. Improved denoising diffusion probabilistic models [C]// 38th International Conference on Machine Learning. [S.l.]: ML Research Press, 2021: 8162−8171.

[本文引用: 1]

ROMBACH R, BLATTMANN A, LORENZ D, et al. High-resolution image synthesis with latent diffusion models [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans. IEEE, 2022: 10674–10685.

[本文引用: 1]

罗义凯, 徐金华, 李昱燃, 等

基于时空关联和异构图卷积的车道级流量预测

[J]. 哈尔滨工业大学学报, 2025, 57 (11): 62- 70

DOI:10.11918/202407040      [本文引用: 1]

LUO Yikai, XU Jinhua, LI Yuran, et al

Lane-level traffic flow prediction based on spatiotemporal correlation and heterogeneous graph convolution

[J]. Journal of Harbin Institute of Technology, 2025, 57 (11): 62- 70

DOI:10.11918/202407040      [本文引用: 1]

RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks [EB/OL]. (2015−11−19) [2026−04−10]. https://arxiv.org/pdf/1511.06434.

[本文引用: 1]

GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved training of Wasserstein GANs [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. [S.l.]: Curran Associates Inc., 2017: 5769−5779.

[本文引用: 1]

KARRAS T, LAINE S, AILA T. A style-based generator architecture for generative adversarial networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 4401−4410

[本文引用: 1]

RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation [C]// Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015. [S.l.]: Springer, 2015: 234–241.

[本文引用: 1]

CHEN J, LU Y, YU Q, et al. TransUNet: transformers make strong encoders for medical image segmentation [EB/OL]. (2021–02–08)[2025–07–12]. https://arxiv.org/pdf/2102.04306.

[本文引用: 1]

MEHTA S, RASTEGARI M. MobileVIT: light-weight, general-purpose, and mobile-friendly vision transformer [EB/OL]. (2022–03–04)[2025–07–12]. https://arxiv.org/pdf/2110.02178.

[本文引用: 1]

LIU Y, YAO J, LU X, et al

DeepCrack: a deep hierarchical feature learning architecture for crack segmentation

[J]. Neurocomputing, 2019, 338: 139- 153

DOI:10.1016/j.neucom.2019.01.036      [本文引用: 1]

/