浙江大学学报(工学版), 2026, 60(1): 43-51 doi: 10.3785/j.issn.1008-973X.2026.01.004

计算机技术

基于扩散模型多模态提示的电力人员行为图像生成

朱志航,, 闫云凤, 齐冬莲,

1. 浙江大学 电气工程学院,浙江 杭州 310027

2. 浙江大学 海南研究院,海南 三亚 572025

Image generation for power personnel behaviors based on diffusion model with multimodal prompts

ZHU Zhihang,, YAN Yunfeng, QI Donglian,

1. College of Electrical Engineering, Zhejiang University, Hangzhou 310027, China

2. Hainan Institute of Zhejiang University, Sanya 572025, China

通讯作者: 齐冬莲,女,教授. orcid.org/0000-0002-6535-2221. E-mail:qidl@zju.edu.cn

收稿日期: 2024-12-17  

Received: 2024-12-17  

作者简介 About authors

朱志航(2000—),男,硕士生,从事计算机视觉研究.orcid.org/0009-0000-8952-5249.E-mail:22210044@zju.edu.cn , E-mail:22210044@zju.edu.cn

摘要

电力人员行为的特殊性与复杂性导致其图像数据稀缺,给数据驱动下的行为识别带来了挑战. 在稳定扩散模型的基础上,充分融合人体骨架、掩膜以及文本描述信息,加入关键点损失函数,建立多模态条件控制的电力人员行为图像生成模型PoseNet,该模型可以生成高质量的可控人体图像. 设计基于关键点相似度的图像滤波器,以去除错误、低质量的生成图像;采用双阶段训练策略,在通用数据上对模型进行预训练,并在私有数据上微调,提升模型性能;针对电力人员行为特点,设计集通用、专用评价指标于一体的生成图像评价指标集,分析不同评价指标下的图像生成效果. 实验结果表明,与主流人体生成模型ControlNet、HumanSD相比,该模型的生成结果更精准、真实、效果更优.

关键词: 条件图像生成模型 ; 数据扩充 ; 人体关键点 ; 图像分割 ; 扩散模型 ; 深度学习

Abstract

A multimodal conditional-control image generation model PoseNet for power personnel behaviors was established to address the challenges posed to data-driven behavior identification due to the scarcity of image data caused by the unique and complex nature of power personnel behaviors. On the basis of the stable diffusion model, the human skeleton, mask and text description information were fully integrated, and the key point loss function was added to the model, enabling the model to generate high-quality and controllable human body images. An image filter based on the similarity of the key points was designed to remove the erroneous and low-quality generated images, and the two-stage training strategy was used to pre-train the model on the generic data and fine-tune the model on the private data to improve the model performance. For the behavioral characteristics of the power personnel, a set of evaluation metrics for generating images integrating the generic and specialized evaluation metrics was designed, and the image generation performance under different evaluation metrics was analyzed. The experimental results showed that compared with the mainstream human generation models ControlNet and HumanSD, this model achieved more accurate, realistic and superior results.

Keywords: conditional image generation model ; data augmentation ; human body keypoint ; image segmentation ; diffusion model ; deep learning

PDF (4153KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

朱志航, 闫云凤, 齐冬莲. 基于扩散模型多模态提示的电力人员行为图像生成. 浙江大学学报(工学版)[J], 2026, 60(1): 43-51 doi:10.3785/j.issn.1008-973X.2026.01.004

ZHU Zhihang, YAN Yunfeng, QI Donglian. Image generation for power personnel behaviors based on diffusion model with multimodal prompts. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(1): 43-51 doi:10.3785/j.issn.1008-973X.2026.01.004

电力安全是我国经济发展的重中之重,而电力人员行为的精准识别对于安全事故的避免至关重要[1]. 目前,基于深度学习的图像处理技术逐渐成为研究热点,并在电力图像优化、设备缺陷检测、作业行为监测等细分领域逐步得到了推广和应用[2-3]. 但是,电力图像数据具有私密性和特殊性,其采集、筛选、标注、整理等环节均需要耗费大量的人力物力,数据获取难度很大且质量较差[4]. 同时,深度学习模型的训练需要大量数据作为支撑,这给人工智能算法在电力领域的开发与利用带来了极大困难[5].

生成式人工智能(generative artificial intelligence, GAI)是指利用人工智能技术自动生成文本、图像、音频、视频等,主要包括2类方法:生成对抗网络[6](generative adversarial network, GAN)和去噪扩散概率模型[7](denoising diffusion probabilistic model, DDPM). 当前生成模型在文本提示的图像生成任务中效果良好,已有工作如GLIDE[8]、Imagen[9]等,但是仅仅通过文本提示无法准确地控制结构、形状、位置等细节信息.

近年,基于GAN的电力图像生成方法逐步引起了研究者的关注,尤其是条件控制生成方法. 张美锋等[10]通过改进数据增强生成对抗网络,将多尺度特征融合到U-Net架构的解码器中,扩充变电站设备的红外图像样本. 何宇浩等[11]基于语义相似性匹配机制设计面对上下文的LoFGAN生成器,改善了电力缺陷样本不足的问题. 杨剑锋等[12]利用条件生成对抗网络,将输电线路背景图和异物图作为随机变量,扩充异物入侵样本,提升了网络在下游检测任务中的性能. 王德文等[13]设计基于Wasserstein距离优化的GAN,提升无人机航拍绝缘子模糊图片的清晰度. 黄文琦等[14]通过全局生成对抗网络和局部生成对抗网络分别生成和优化视频场景和人体细节. 目前,GAN在电力图像生成方面的应用主要采用去模糊化、细节优化等方式解决简单的图像质量问题,实现电力图像样本的增强[15],但模型缺少高质量图像的生成能力.

在去噪扩散概率模型相关研究中,稳定扩散模型[16](stable diffusion model, SDM)由于利用编码器和解码器将高分辨率的输入映射到潜在空间进行加噪与去噪,具有空间高效性和表达丰富性,是当前研究的主流基准网络;其主干结构为U-Net[17]. 目前,已有的工作如ControlNet[18]、T2I-Adapter[19]、HumanSD[20]及HyperHuman[21]等,均在稳定扩散模型的基础上探究条件控制图像生成. 然而,以上方法采用的数据主要为艺术绘画、人物风景、运动摄影等以人物为中心的图像,人物在图像中占据大比例画面,而电力图像以覆盖电力场地为目的,不以人物为中心,其中电力人员在多个位置与电力设备进行交互,两者存在巨大差异.

综上所述,虽然扩散模型相较于生成对抗网络在生成图像的清晰度、丰富度方面得到了显著提升,但是,如何控制模型生成想要的图像仍然是生成模型研究领域的一大难题[22]. 人体图像包含更加复杂的结构,并且需要考虑人体的姿态、形状和衣着等,给人体图像生成带来极大挑战[23],使得可控电力人员行为图像生成面临更多困难.

电力人员行为图像的最优生成目标是:对于给定的1张图像,可以在任意位置绘制任意穿着、任意姿势的电力人员. 面对人体肢体结构的多变性和遮挡关系,如何有效生成高质量的人体图像是亟待解决的关键问题. 进一步地,由于生成模型无法保证所有的合成图像都是正确的,需要自动筛选、过滤错误或低质量的合成图像,保证最后的生成结果正确无误,从而提升下游模型训练效果.

针对人体动作复杂、遮挡等因素导致电力人员行为图像难以生成的问题,建立多模态条件控制的电力人员行为图像生成模型PoseNet. 加入关键点损失函数,采用双阶段训练策略,更精确地控制人体生成模型,有效提升生成图像的质量. 针对生成结果的不确定性,设计基于关键点相似度的图像滤波器,通过计算生成图像与标注的契合度,判别合成图像的质量,从而保证合成数据的可靠性,实现高质量电力人员行为图像的生成.

1. 电力人员行为图像条件控制生成模型PoseNet

1.1. 模型整体架构

所提方法包含3个部分:1)数据部分,通过图像自标注方法对获取的图像进行标注,用于模型训练;2)模型部分,在稳定扩散模型的基础上,构建计及关键点、掩膜和文本等多模态提示条件的生成模型;3)推理部分,加入图像滤波器,过滤低质量图像. 整体的图像生成架构如图1所示.

图 1

图 1   电力人员行为图像生成架构

Fig.1   Image generation architecture for power personnel behaviors


1.2. 基于稳定扩散模型的条件控制图像生成模型

稳定扩散模型包括编码、解码、前向扩散和反向扩散过程,基本流程如图2所示.图2中,上方箭头表示前向扩散过程. 模型通过编码器将初始图像压缩到潜空间,对其添加$ T $次噪声,将初始潜特征$ {\boldsymbol{x}}_{0} $逐渐转变为纯高斯噪声$ {\boldsymbol{x}}_{T} $.$ t-1 $步到$ t $步的加噪过程可以用高斯分布表示:

图 2

图 2   稳定扩散模型基本流程

Fig.2   Basic process of stable diffusion model


$ q\left(\boldsymbol{x}_t \mid \boldsymbol{x}_{t-1}\right)=N\left(\boldsymbol{x}_t ; \sqrt{1-\beta_t} \cdot \boldsymbol{x}_{t-1}, \;\beta_t \cdot I\right) . $

式中:$ q\left({\boldsymbol{x}}_{t}|{\boldsymbol{x}}_{t-1}\right) $为从$ t-1 $步到$ t $步的加噪后的概率分布,$ {\boldsymbol{x}}_{t} $为输入$ {\boldsymbol{x}}_{0} $在第$ t $步的加噪结果,$ {\beta }_{t} $为设定的超参数,$ {\beta }_{t} \cdot I $表示高斯分布的方差. 根据马尔科夫链原则,$ {\boldsymbol{x}}_{T} $可以由输入$ {\boldsymbol{x}}_{0} $直接得到:

$ q\left(\boldsymbol{x}_{0: T}\right)= q({\boldsymbol{x}}_0) \prod_{t=1}^T q\left(\boldsymbol{x}_t \mid \boldsymbol{x}_{t-1}\right) . $

图2中下方箭头表示反向扩散过程. 网络通过比对之前$ t $步的加噪特征,学习噪声估计网络$ {f}_{\theta }\left({\boldsymbol{x}}_{t},t\right) $来预测反向扩散过程的高斯分布方差和均值,对加噪潜特征进行去噪处理,然后使用解码器从潜空间重建图像.

$ p_\theta\left(\boldsymbol{x}_{t-1} \mid \boldsymbol{x}_t\right)=N\left(\boldsymbol{x}_{t-1} ; \mu_\theta\left(\boldsymbol{x}_t, t\right), \sigma_\theta\left(\boldsymbol{x}_t, t\right)\right) . $

式中:$ {p}_{\theta }\left({\boldsymbol{x}}_{t-1}|{\boldsymbol{x}}_{t}\right) $为从$ t $步到$ t-1 $步的去噪后的概率分布,$ {\mu }_{\theta }\left({\boldsymbol{x}}_{t},t\right) $$ {{\sigma }}_{\theta }\left({\boldsymbol{x}}_{t},t\right) $为噪声估计网络$ {f}_{\theta }\left({\boldsymbol{x}}_{t},t\right) $的参数.

根据马尔科夫链原则,$ {\boldsymbol{x}}_{0} $可以由$ {\boldsymbol{x}}_{T} $直接表达:

$ p_\theta\left(\boldsymbol{x}_{0: T}\right)=p\left(\boldsymbol{x}_T\right) \prod_{t=1}^T p_\theta\left(\boldsymbol{x}_{t-1} \mid \boldsymbol{x}_t\right) . $

稳定扩散模型可以通过姿态条件引导反向过程,进而控制图像的生成,但是该方法所得的结果存在较大的解空间,从而导致生成的结果存在很大差异,不够精确[24]. 为了使模型输出更精确的人体图像,建立PoseNet模型,通过在稳定扩散模型中添加辅助模块,引入额外条件来控制生成过程,如图3所示. 在PoseNet模型中,采用与稳定扩散模型相同的编码器模块及中间层,冻结稳定扩散模型的权重参数. PoseNet中每一个编码器模块的输出都通过1层跳跃连接结构与零卷积层相连,分别与对应层的稳定扩散模型的特征相加,最终被输入到解码器中解码,实现条件的融合与控制. 此外,在整体损失函数中添加关键点热图损失,帮助模型关注人体关节生成的准确度.

图 3

图 3   稳定扩散模型与PoseNet架构

Fig.3   Architectures of stable diffusion model and PoseNet


具体地,PoseNet每一层编码器模块的分辨率分别是64×64、32×32、16×16和8×8,每种分辨率含有3个由残差连接网络和注意力机制构成的编码块,该数量与稳定扩散模型对应;对应的零卷积层也有3个,在图3中简化为1个编码块与1个零卷积层. 由于稳定扩散模型的权重是固定的,不需要进行梯度计算,PoseNet的设计减少了训练中大部分的计算量,并具有即插即用性.

1.3. 损失函数设计

对于给定的图像$ {\boldsymbol{x}}_{0} $,扩散模型逐步向图像添加噪声并生成噪声图像$ {\boldsymbol{x}}_{t} $.给定1组包含时间步$ t $、文本提示$ e $和控制条件$ c $的输入,扩散模型通过学习参数来预测添加到图像$ {\boldsymbol{x}}_{t} $的噪声$ {{\boldsymbol{\epsilon }}}_{{\theta} } $. 模型的优化目标是通过计算预测噪声和真实噪声之间的差异实现的,损失函数为

$ \mathcal{L}={E}_{{\boldsymbol{x}}_{0},t,e,c,{\boldsymbol{\epsilon}} }\left[\left\|{\boldsymbol{\epsilon}} -{{\boldsymbol{\epsilon}} }_{{\theta} }\left({\boldsymbol{x}}_{t},t,e,c\right)\right\|_{2}^{2}\right]. $

预测噪声${{\boldsymbol{\epsilon }}}_{{\theta} } $与真实噪声${{\boldsymbol{\epsilon }}} $越接近,差值$ \boldsymbol{d} $就越接近空白;反之,则差值$ \boldsymbol{d} $显示的人体结构越明显,该人体结构经由关键点检测的热图$ \boldsymbol{M} $越显著. 热图$ \boldsymbol{M} $为分辨率大小与图像$ {\boldsymbol{x}}_{t} $相同、每一像素值域从0到1.0分布的关键点概率分布图. 通过设置阈值$ \beta $,筛选出关键点误差显著的区域$ {\boldsymbol{M}}^{\boldsymbol{*}} $,满足

$ {M^*}_{\left( {i,j} \right)} = \left\{ {\begin{array}{*{20}{l}} {{M_{\left( {i,j} \right)}} - \beta ,}&{{M_{\left( {i,j} \right)}} > \beta ;} \\ {0,}&{{M_{\left( {i,j} \right)}} \leqslant \beta .} \end{array}} \right. $

式中:$ {M}_{\left(i,j\right)} $$ {{M}^{\boldsymbol{*}}}_{\left(i,j\right)} $分别为$ \boldsymbol{M} $$ {\boldsymbol{M}}^{\boldsymbol{*}} $中第i行第j列的像素值. 放大该区域的损失,可以使模型关注于人体结构的正确性,修正后的损失函数为

$ \mathcal{L}=E_{\boldsymbol{x}_0, t, e, c, {\boldsymbol{\epsilon}}}\left[\left\|\boldsymbol{W} \cdot\left({\boldsymbol{\epsilon}}-{\boldsymbol{\epsilon}}_\theta\left(\boldsymbol{x}_t, t, e, c\right)\right)\right\|_2^2\right] . $

式中:$ \boldsymbol{W}=\alpha \cdot \boldsymbol{M}^*+1$$ \alpha $设置为0.05;筛选阈值$ \beta $设为0.1.

1.4. 多模型分级调度的图像自标注方法

由于获取的原始电力人员图像数据不含任何标注信息,需要对原始数据进行标注,而使用人工标注会耗费大量的时间. 据统计,1张图像的语义分割标注时间约为1.5 h[25]. 目前大都采用深度学习辅助工具来生成需要的标注信息,如SpireView、Label-Studio. 但是,这些均为半自动标注方法,仍然需要人工介入(如提供起始点、大致框等),且标注形式单一.

提出多模型分级调度的图像自标注方法,实现图像全自动标注. 如图4所示,图像的自动标注流程如下.

图 4

图 4   图像自标注流程图

Fig.4   Image self-labeling flowchart


1)输入1张原始图像,通过YOLO[26]检测出所有人体的最小外接矩形框,并按一定比例留出裕量,根据放大后的外接矩形框对图像进行裁切.

2)针对每个裁切出的人体外接矩形框,采用Mask2Former[27]分割出人体掩膜,利用关键点检测模型ViTPose[28]检测出人体关键点,将掩膜和关键点融合,并覆盖原图中的人体,形成骨骼掩膜标注.

3)针对每个裁切出的人体外接矩形框,通过视觉-语言模型BLIP[29]生成相应的外观描述,与前两者组成图像-骨骼掩膜标注-外观文本描述三元组.

该标注方法可以实现分割掩膜、关键点坐标、外观文本描述3种标注的一次性生成,且无须任何形式的人工介入. 在此标注的基础上,训练过程即是让模型学习如何通过骨骼掩膜标注及外观文本描述还原原始人体图像. 关键点为模型提供人体姿势信息,掩膜为模型提供稠密空间信息,文本描述为模型提供外观信息. 其中关键点的标注遵循COCO[30]标注格式,以17个关键点来表示1个人,包括鼻子、左/右眼睛、左/右耳朵、左/右肩膀、左/右手肘、左/右手腕、左/右髋部、左/右膝盖、左/右脚踝.

1.5. 基于关键点相似度的图像过滤策略

生成模型不可避免地会生成一些错误结果,对下游任务产生严重影响. 为此,提出基于关键点相似度的图像过滤策略,通过计算目标关键点相似度(object keypoint similarity, OKS)去除错误的合成图像.

使用现有检测模型预测合成图像中人体的关键点位置,计算其与真实关键点之间的OKS:

$ \mathrm{OKS}=\frac{\sum_i \exp \left[-d_i^2 /\left( 2 s^2 k_i^2\right)\right] \delta\left(v_i>0\right)}{\sum_i \delta\left(v_i>0\right)}. $

式中:$ i $遍历所有的合成图像;$ {d}_{i} $为检测到的关键点与对应真实关键点之间的欧几里得距离;$ {v}_{i} $为真实关键点i的可见性标志,若该关键点可见则$ {v}_{i}=2 $,被遮挡时$ {v}_{i}=1 $,不在画面内时$ {v}_{i}=0 $$ \delta \left({v}_{i} > 0\right) $为条件式,若$ {v}_{i} > 0 $则条件式为1,否则为0;$ s $为人物的尺度大小;$ {k}_{i} $为控制每个关键点偏差强度的权重.

与欧几里得距离相比,OKS指标允许预测关键点稍微偏离真实关键点,并且这种可接受的偏差因不同关键点而异. OKS是测量真实关键点与预测关键点之间相似度的通用指标. 由于错误的合成人体图像拥有与相应关键点不匹配的身体部位图像,如果用训练良好的关键点检测模型进行评估,这些部位的OKS会显著偏低. 因此,根据以下标准过滤合成的人体图像:1)如果图像的整体OKS低于一定阈值,则说明该图像为明显的错误图像;2)如果人体图像的整体OKS高于阈值,还须检测各个关键点的OKS,若某一关键点OKS低于相应阈值,则该关键点为错误合成区域. 这2种情况下的图像都被视为错误的合成人体图像.

使用关键点检测模型ViTPose来计算合成图像的OKS. 对于合成的人体图像$ p $和阈值$ \alpha $,如果其总体OKS满足

$ {\mathrm{O}\mathrm{K}\mathrm{S}}_{p}=\dfrac{{\sum }_{i}\mathrm{e}\mathrm{x}\mathrm{p}\left[-{d}_{i}^{2}/\left(2{s}^{2}{k}_{i}^{2}\right)\right]\delta \left({v}_{i} > 0\right)}{{\sum }_{i}\delta \left({v}_{i} > 0\right)} < \alpha , $

则该人体图像被视为错误的生成图像. 否则,进一步检查关键点,对于某一关键点$ i $和阈值$ \beta $,若

$ {\mathrm{O}\mathrm{K}\mathrm{S}}_{p}^{i}=\mathrm{e}\mathrm{x}\mathrm{p}\left(\frac{-{d}_{i}^{2}}{2{s}^{2}{k}_{i}^{2}}\right) < \beta , $

则该关键点会被认为是错误的姿势.

作为容错边界,$ \alpha $$ \beta $越大,生成结果中被过滤的合成人体就越多,从而保证合成数据具有更高的准确度. 但是过大的$ \alpha $$ \beta $也会导致剩余的合成人体图像对下游任务提供的帮助不足,因此,需要合理平衡$ \alpha $$ \beta $的值.

图像过滤的整体流程如图5所示. 对于原始图像,首先由1.4节所述的自标注方法生成多模态提示条件,期间可以手动纠正这些条件中错误的部分. 然后由PoseNet模型生成若干张图像,过滤总体OKS小于一定阈值的图像以及部分关键点OKS偏离过大的图像,将剩下的图像按OKS分值排序,即可得到最佳生成图像.

图 5

图 5   图像过滤流程图

Fig.5   Image filtering flowchart


2. 实验结果与分析

2.1. 数据集

采用预训练+微调的方式对PoseNet模型进行训练. 具体来说,采用稳定扩散模型2.1版本的模型权重,基于COCO数据集进行训练. COCO数据集共有超过20 000张图像,包含超过25 000个标注了关键点的人体,是人体关键点检测任务中应用最广泛的数据集之一. 在此基础上,在私有电力数据集上进行微调训练. 私有数据集以变电站等场景为主,共有1 000张样本图片,包含多种款式的电力人员穿着(安全帽、工作服、工作裤等).

2.2. 实验环境

所提方法的实验环境配置包括:Intel Xeon Gold 6242R处理器,8枚海力士DDR4内存条(单枚内存为64 GB),8张NVIDIA 3090显卡(单张显存为24 GB),Ubuntu18.04操作系统和PyTorch深度学习框架.

对于生成模型PoseNet,在预训练阶段,输入图像大小为640像素×640像素,输入批量大小为1,学习率设置为5×10−5,共训练5个周期. 在微调阶段,学习率设置为10−5,共训练100个周期.

训练1个行为识别模型用于评估生成图像的质量. 行为识别模型基于YOLOv5检测模型,输入图像大小为640像素×640像素,学习率设置为0.01,输入批量大小为32,在私有数据集上训练300个周期.

2.3. 实验结果分析

根据电力人员行为特点,选取的图像生成评价指标包括2部分:通用的图像生成评价指标和专用评价指标. 具体定义如表1所示.通用的图像生成评价指标包括:FID、KID、CLIP-Score、PCK和OKS. FID[31]和KID[32]分数用于评估模型生成结果的质量;CLIP-Score[33]用于衡量图像/文本一致性,该指标分为图像-图像匹配度和图像-文本匹配度2项. 此外,引入姿态估计评价指标PCK和OKS来评估生成图像在人体姿势上的准确度.

表 1   评价指标集中不同指标的定义

Tab.1  Definitions of different metrics in evaluation metric set

指标名称指标定义指标作用
FID2组图像经过Inception模型转换为特征向量后的Fréchet距离.衡量2组图像的整体相似度,FID分数越低表示2组图像越相似,说明生成图像质量越好.
KID2组图像经过Inception模型转换为特征向量后的核矩阵无偏估计值.衡量2组图像的整体相似度,KID分数越低表示2组图像越相似,说明生成图像质量越好.
CLIP-Score
(图-图/图-文)
2组图像或图像-文本被经过预训练的CLIP模型转换为特征向量后的余弦相似度.评估2组图像或图像-文本对之间的相似度,CLIP-Score分数越高表示2组图像越相似或图像-文本对越匹配,说明生成图像质量或图像与文本提示一致性越高.
PCK预测关键点与真实关键点之间的距离小于某个阈值的比例,即正确检测的关键点所占百分比.评估姿态估计的准确度,PCK分数越高表示姿态估计预测结果越准确,说明生成图像的关键点准确度越高.
OKS2组关键点之间的距离,考虑了关键点的可见性、人体尺寸和权重分配.评估2组人体姿势的匹配度,OKS分数越高表示2组关键点越接近,说明生成图像的关键点准确度越高.
生成效率$ \eta $对1张人员行为图像,模型生成任意张图像,其中能被行为识别模型检测出人员行为的图像与生成总数量的比值.评估模型生成效率,比值越高,说明生成图像可用概率越大,模型生成效率越高.

新窗口打开| 下载CSV


为了评价模型生成结果在电力人员行为识别任务上的有效性,新增生成效率$ \eta $评价指标,即对于1张含有电力人员行为的图像,模型生成任意数量的图像,其中能被行为识别模型检测出人员行为的图像数量$ n $与生成总数量$ m $的比值:

$ \eta =\frac{n}{m}\times 100{\text{%}}. $

在所有的通用指标中,FID、KID分数越低越好,其余分数及专用指标$ \eta $的值均越高越好.

将所提方法与通用领域生成模型ControlNet、人体图像生成专用模型HumanSD在所选指标上进行对比. 选取训练数据之外的一系列图像样本,通过自动标注方法处理图像,获得每个样本的标注,再用模型生成结果. 其中,ControlNet和HumanSD只输入关键点坐标作为提示条件,而所提方法采用包含关键点、掩膜和文本的多模态提示条件. 将生成的图像和原始图像及标注信息进行对比,得到各项指标结果,如表2所示. 其中,指标最优值以粗体表示,次优值以下划线标出.

表 2   不同方法在多种指标下的定量结果

Tab.2  Quantitative results of different methods under multiple metrics

方法FIDKIDCLIP-ScorePCK/%OKS
ControlNet[18]274.726.6267.33/30.3147.50.872
HumanSD[20]331.0511.6562.21/29.2489.40.946
PoseNet130.795.1287.23/30.3275.40.889
PoseNet+图像滤波器130.434.9089.81/30.4390.40.978
PoseNet+图像滤波器+双阶段训练128.254.5691.02/31.4494.20.979

新窗口打开| 下载CSV


所提方法在FID、KID和CLIP-Score(图-图/图-文)上分别取得了130.79、5.12、87.23/30.32的分数. 与其他模型相比,所提模型在生成时具有更高的图像质量与图文一致性. 在加入过滤策略之后,生成数据的整体质量得到进一步提升,并且在关键点准确度指标PCK和OKS上取得了90.4%和0.978的分数,较过滤之前分别提升了19.9%和10.0%,超过了人体图像生成的专用模型HumanSD,说明所提过滤策略极大地提高了生成结果中关键点的准确性,提升了整体准确度. 总体来看,所提方法在所选6项指标中均为最优,其有效性得到了验证. 尽管直接微调已经取得了不错的效果,但是由于电力数据集样本稀缺,采取双阶段训练策略,在通用数据集上预训练后再用电力数据集微调,使得模型具有准确的多模态条件提示生成能力,同时能够在电力场景下理解提示并生成与提示对应的人物图像. 采用预训练+微调的双阶段训练策略后,相比于直接微调,在图像质量和图像/文本一致性上提升效果明显,说明模型学习到了通用场景下丰富的图像信息,使得生成效果进一步提升.

为了评估模型生成结果的有效性,对不同算法的生成效率进行对比. 共选取3种电力人员行为,分别为登梯、跨越围栏、爬杆,每个行为各生成100张图像用于计算比值,具体结果如表3所示. 其中,$ {\eta }_{\mathrm{d}} $$ {\eta }_{\mathrm{k}} $$ {\eta }_{\mathrm{p}} $分别为登梯、跨越围栏、爬杆行为的生成效率. 对比方法中,ControlNet因其姿态控制不稳定,导致生成结果的行为可识别性最差. HumanSD强化了姿态控制,其生成结果有一定的可识别度. 然而,电力人员行为具有较强的人物交互性,仅靠姿态控制会产生与交互物体不契合的人体轮廓. 所提方法可以完全复现电力人员的真实行为,生成结果达到了100%的可用性.

表 3   不同算法对不同行为的生成效率对比

Tab.3  Comparison of generation efficiency for different behaviors with different algorithms

算法$ {\eta }_{\mathrm{d}} $/%$ {\eta }_{\mathrm{k}} $/%$ {\eta }_{\mathrm{p}} $/%
ControlNet[18]533068
HumanSD[20]775771
PoseNet100100100

新窗口打开| 下载CSV


2.4. 可视化结果分析

进一步地,对所提方法生成结果进行可视化分析,通过对生成图像的主观视觉感受来体现所提方法的有效性.

图6展示了PoseNet、PosetNet+图像滤波器、PoseNet+图像滤波器+双阶段训练的生成效果. 可以看到,PoseNet生成的电力人员图像整体效果较好,在人体姿态、外观方面都符合原始图像,但是存在部分的错误生成和细节缺失的问题. 在加入图像滤波器后,滤波器根据关键点检测分值判断生成结果的准确度,虽然可以滤除显著的错误区域,如第1行中人员的鞋子、第2行中人员的右手,保证了生成图像的质量,但图像滤波器本身没有提升模型的生成能力,导致生成图像的细节仍然不足,如第1行中人员的左手、第2行中人员的右膝、第3行中人员的鞋子和右手. 在加入双阶段训练策略后,模型通过大量通用图像数据学习到正确的人体结构关系和图像细节,使得生成图像的细节质量显著提升. 例如,生成图像中人员手部的手指细节更具体,同时人员整体效果更真实、外观更清晰,说明模型实现了高质量的人体图像生成.

图 6

图 6   在PoseNet中使用或不使用图像滤波器、双阶段训练方法的生成效果对比

Fig.6   Generation effect comparison of PoseNet with or without image filter and two-stage training method


将所提方法与ControlNet对比,如图7所示. 其中640分辨率表示模型生成图像分辨率为640×640,1280分辨率表示模型生成图像分辨率为1280×1280,覆盖原人体表示将ControlNet在1280×1280分辨率下的生成结果覆盖到原图中人体上的结果.

图 7

图 7   所提方法与ControlNet生成效果对比

Fig.7   Comparison of generation effect between proposed method and ControlNet


可以看出,ControlNet在640×640分辨率下的生成结果完全不可用,在1280×1280分辨率下生成的安全帽在人体头部的位置不符合现实情况;所提方法在640×640分辨率下可以生成较为真实的人体图像,在1280×1280分辨率下生成的图像更为清晰,更符合现实情况. 进一步地,将ControlNet的生成结果覆盖到原始图像上,可以看出2张图像吻合度较低,而所提方法通过融合掩膜的信息,生成结果和原始图像在姿势、外形上的匹配度极高,且生成人体与背景的契合度更好.

图8展示了所提方法在复杂姿态、遮挡情况下的生成效果. 可以看出,在第1列中人员膝盖附近存在遮挡严重的区域、第2列中人员腿部附近存在复杂姿态、第3列中人员手部复杂交互的情况下,ControlNet的生成结果存在姿势错误、外观错误等问题,而所提方法能够很好地还原人物姿态,贴合所处的环境外观,且生成的外观更清晰、真实且可靠.

图 8

图 8   复杂姿态、遮挡情况下ControlNet与所提方法的生成效果对比

Fig.8   Comparison of generation effects between ControlNet and proposed method under complex postures and occlusion condition


由于所提方法的提示标注可以任意输入,对于1张图像,既可以用生成的人体图像替换原始人体的外观,也可以新增1个人体. 图9展示了所提方法在替换和新增2种情况下的生成效果. 当替换人体时,先提取原始人物的关键点、掩膜信息,再给定外观文本,通过模型生成图像并替换原始人体. 当新增人体时,直接输入任意位置、任意姿势的人物标注以及外观文本,通过模型生成相应人物图像.

图 9

图 9   替换和新增情况下的生成效果对比

Fig.9   Comparison of generation effects in replacement and addition scenarios


图10展示了具有不同行为的人体的生成效果,分别为爬杆、倒地、扛梯姿态下的人体. 每一栏的左侧为原始图像,右侧为生成图像. 可以看出,所提方法可以实现电力场景下任意姿势、任意位置、任意穿着的人体图像生成.

图 10

图 10   所提方法在爬杆、倒地、扛梯姿态下的生成效果图

Fig.10   Generation effect diagram of proposed method under climbing, falling and ladder-carrying postures


3. 结 语

针对电力人员行为图像样本不足的问题,提出了有效的可控电力人员图像生成模型PoseNet. 通过包含关键点、掩膜和文本描述的多模态提示条件控制模型生成结果,并加入关键点损失函数;通过基于关键点相似度的过滤评估策略提升生成图像的质量;采用预训练+微调的双阶段训练策略,使模型能够稳定生成可控的人体图像. 但是,所提方法尚存在以下问题有待解决:1)由于微调时使用的电力数据集规模较小,模型学习到的人体特征大多源于通用数据集,使得生成结果具有更多的通用数据集特征;2)实验采用的训练数据集仅包括安全帽、工作服、工作裤3种电力着装,并未覆盖更多的安全装备;3)实验涉及的条件控制由关键点主导,以高质量人体生成为目标导向,没有涉及其他的电力设施,且不具备背景生成的功能. 未来将继续探索条件控制扩散模型的生成方法,进一步覆盖更多的电力场景图像.

参考文献

王刘旺

机器视觉技术在电力安全监控中的应用综述

[J]. 浙江电力, 2022, 41 (10): 16- 26

[本文引用: 1]

WANG Liuwang

A review of the application of machine vision in power safety monitoring

[J]. Zhejiang Electric Power, 2022, 41 (10): 16- 26

[本文引用: 1]

赵振兵, 张薇, 翟永杰, 等. 电力视觉技术的概念、研究现状与展望[J]. 电力科学与工程, 2020, 36(1): 1–8.

[本文引用: 1]

ZHAO Zhenbing, ZHANG Wei, ZHAI Yongjie, et al. Concept, research status and prospect of electric power vision technology [J]. Electric Power Science and Engineering, 2020, 36(1): 1–8.

[本文引用: 1]

齐冬莲, 韩译锋, 周自强, 等

基于视频图像的输变电设备外部缺陷检测技术及其应用现状

[J]. 电子与信息学报, 2022, 44 (11): 3709- 3720

DOI:10.11999/JEIT211588      [本文引用: 1]

QI Donglian, HAN Yifeng, ZHOU Ziqiang, et al

Review of defect detection technology of power equipment based on video images

[J]. Journal of Electronics and Information Technology, 2022, 44 (11): 3709- 3720

DOI:10.11999/JEIT211588      [本文引用: 1]

闫云凤, 陈汐, 金浩远, 等

基于计算机视觉的电力作业人员行为分析研究现状与展望

[J]. 高电压技术, 2024, 50 (5): 1842- 1854

[本文引用: 1]

YAN Yunfeng, CHEN Xi, JIN Haoyuan, et al

Research status and development of computer-vision-based power workers’ behavior analysis

[J]. High Voltage Engineering, 2024, 50 (5): 1842- 1854

[本文引用: 1]

陈佛计, 朱枫, 吴清潇, 等

生成对抗网络及其在图像生成中的应用研究综述

[J]. 计算机学报, 2021, 44 (2): 347- 369

DOI:10.11897/SP.J.1016.2021.00347      [本文引用: 1]

CHEN Foji, ZHU Feng, WU Qingxiao, et al

A survey about image generation with generative adversarial nets

[J]. Chinese Journal of Computers, 2021, 44 (2): 347- 369

DOI:10.11897/SP.J.1016.2021.00347      [本文引用: 1]

GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al

Generative adversarial networks

[J]. Communications of the ACM, 2020, 63 (11): 139- 144

DOI:10.1145/3422622      [本文引用: 1]

HO J, JAIN A, ABBEEL P. Denoising diffusion probabilistic models [C]// Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver: NeurIPS Foundation, 2020: 6840–6851.

[本文引用: 1]

NICHOL A, DHARIWAL P, RAMESH A, et al. GLIDE: towards photorealistic image generation and editing with text-guided diffusion models [EB/OL]. (2022−03−08) [2025−01−14]. https://arxiv.org/abs/2112.10741.

[本文引用: 1]

SAHARIA C, CHAN W, SAXENA S, et al. Photorealistic text-to-image diffusion models with deep language understanding [C]// Proceedings of the 36th International Conference on Neural Information Processing Systems. New Orleans: NeurIPS Foundation, 2022: 36479–36494.

[本文引用: 1]

张美锋, 谭翼坤, 陈世俊, 等

基于DAGAN的电气设备小样本红外图像生成技术与应用

[J]. 电工技术, 2023, (6): 76- 79

[本文引用: 1]

ZHANG Meifeng, TAN Yikun, CHEN Shijun, et al

Infrared image generation technology and application of small sample of electrical equipment based on DAGAN

[J]. Electric Engineering, 2023, (6): 76- 79

[本文引用: 1]

何宇浩, 宋云海, 何森, 等

面向电力缺陷场景的小样本图像生成方法

[J]. 浙江电力, 2024, 43 (1): 126- 132

[本文引用: 1]

HE Yuhao, SONG Yunhai, HE Sen, et al

A few-shot image generation method for power defect scenarios

[J]. Zhejiang Electric Power, 2024, 43 (1): 126- 132

[本文引用: 1]

杨剑锋, 秦钟, 庞小龙, 等

基于深度学习网络的输电线路异物入侵监测和识别方法

[J]. 电力系统保护与控制, 2021, 49 (4): 37- 44

[本文引用: 1]

YANG Jianfeng, QIN Zhong, PANG Xiaolong, et al

Foreign body intrusion monitoring and recognition method based on Dense-YOLOv3 deep learning network

[J]. Power System Protection and Control, 2021, 49 (4): 37- 44

[本文引用: 1]

王德文, 李业东

基于WGAN图片去模糊的绝缘子目标检测

[J]. 电力自动化设备, 2020, 40 (5): 188- 198

[本文引用: 1]

WANG Dewen, LI Yedong

Insulator object detection based on image deblurring by WGAN

[J]. Electric Power Automation Equipment, 2020, 40 (5): 188- 198

[本文引用: 1]

黄文琦, 许爱东, 明哲, 等

基于生成对抗网络的变电站工作人员行为预测的方法

[J]. 南方电网技术, 2019, 13 (2): 45- 50

[本文引用: 1]

HUANG Wenqi, XU Aidong, MING Zhe, et al

Prediction method for the behavior of substation staff based on generative adversarial network

[J]. Southern Power System Technology, 2019, 13 (2): 45- 50

[本文引用: 1]

邵振国, 张承圣, 陈飞雄, 等

生成对抗网络及其在电力系统中的应用综述

[J]. 中国电机工程学报, 2023, 43 (3): 987- 1004

[本文引用: 1]

SHAO Zhenguo, ZHANG Chengsheng, CHEN Feixiong, et al

A review on generative adversarial networks for power system applications

[J]. Proceedings of the CSEE, 2023, 43 (3): 987- 1004

[本文引用: 1]

ROMBACH R, BLATTMANN A, LORENZ D, et al. High-resolution image synthesis with latent diffusion models [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 10674–10685.

[本文引用: 1]

RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation [C]// Medical Image Computing and Computer-Assisted Intervention. Munich: Springer, 2015: 234–241.

[本文引用: 1]

ZHANG L, RAO A, AGRAWALA M. Adding conditional control to text-to-image diffusion models [C]// IEEE/CVF International Conference on Computer Vision. Paris: IEEE, 2023: 3813–3824.

[本文引用: 3]

MOU C, WANG X, XIE L, et al. T2I-adapter: learning adapters to dig out more controllable ability for text-to-image diffusion models [C]// AAAI Conference on Artificial Intelligence. Vancouver: AAAI, 2024: 4296–4304.

[本文引用: 1]

JU X, ZENG A, ZHAO C, et al. HumanSD: a native skeleton-guided diffusion model for human image generation [C]// IEEE/CVF International Conference on Computer Vision. Paris: IEEE, 2023: 15942–15952.

[本文引用: 3]

LIU X, REN J, SIAROHIN A, et al. HyperHuman: hyper-realistic human generation with latent structural diffusion [EB/OL]. (2024−03−15) [2025−01−14]. https://arxiv.org/abs/2310.08579.

[本文引用: 1]

闫政斌. 鲁棒性多姿态人体图像生成方法研究[D]. 天津: 天津工业大学, 2023.

[本文引用: 1]

YAN Zhengbin. Research on robust multi-pose human image generation method [D]. Tianjin: Tianjin University of Technology, 2023.

[本文引用: 1]

左然, 胡皓翔, 邓小明, 等

基于手绘草图的视觉内容生成深度学习方法综述

[J]. 软件学报, 2024, 35 (7): 3497- 3530

[本文引用: 1]

ZUO Ran, HU Haoxiang, DENG Xiaoming, et al

Survey on deep learning methods for freehand-sketch-based visual content generation

[J]. Journal of Software, 2024, 35 (7): 3497- 3530

[本文引用: 1]

文渊博, 高涛, 安毅生, 等

基于视觉提示学习的天气退化图像恢复

[J]. 计算机学报, 2024, 47 (10): 2401- 2416

[本文引用: 1]

WEN Yuanbo, GAO Tao, AN Yisheng, et al

Weather-degraded image restoration based on visual prompt learning

[J]. Chinese Journal of Computers, 2024, 47 (10): 2401- 2416

[本文引用: 1]

CORDTS M, OMRAN M, RAMOS S, et al. The cityscapes dataset for semantic urban scene understanding [C]// IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 3213–3223.

[本文引用: 1]

REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C]// IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779–788.

[本文引用: 1]

CHENG B, MISRA I, SCHWING A G, et al. Masked-attention mask Transformer for universal image segmentation [C]// IEEE Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 1280–1289.

[本文引用: 1]

XU Y, ZHANG J, ZHANG Q, et al. Vitpose: simple vision Transformer baselines for human pose estimation [C]// Proceedings of the 36th International Conference on Neural Information Processing Systems. New Orleans: NeurIPS Foundation, 2022: 38571–38584.

[本文引用: 1]

LI J, LI D, XIONG C, et al. BLIP: bootstrapping language-image pre-training for unified vision-language understanding and generation [C]// International Conference on Machine Learning. Baltimore: PMLR, 2022: 12888–12900.

[本文引用: 1]

LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context [C]// European Conference on Computer Vision. Zurich: Springer, 2014: 740–755.

[本文引用: 1]

HEUSEL M, RAMSAUER H, UNTERTHINER T, et al. GANs trained by a two time-scale update rule converge to a local Nash equilibrium [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: NeurIPS Foundation, 2017: 6629–6640.

[本文引用: 1]

BIŃKOWSKI M, SUTHERLAND D J, ARBEL M, et al. Demystifying MMD GANs [C]// International Conference on Learning Representations. Vancouver: ICLR, 2018: 1–36.

[本文引用: 1]

HESSEL J, HOLTZMAN A, FORBES M, et al. CLIPScore: a reference-free evaluation metric for image captioning [EB/OL]. (2022−03−23) [2025−01−14]. https://arxiv.org/abs/2104.08718.

[本文引用: 1]

/