基于扩散模型多模态提示的电力人员行为图像生成
朱志航,闫云凤,齐冬莲

Image generation for power personnel behaviors based on diffusion model with multimodal prompts
Zhihang ZHU,Yunfeng YAN,Donglian QI
表 1 评价指标集中不同指标的定义
Tab.1 Definitions of different metrics in evaluation metric set
指标名称指标定义指标作用
FID2组图像经过Inception模型转换为特征向量后的Fréchet距离.衡量2组图像的整体相似度,FID分数越低表示2组图像越相似,说明生成图像质量越好.
KID2组图像经过Inception模型转换为特征向量后的核矩阵无偏估计值.衡量2组图像的整体相似度,KID分数越低表示2组图像越相似,说明生成图像质量越好.
CLIP-Score
(图-图/图-文)
2组图像或图像-文本被经过预训练的CLIP模型转换为特征向量后的余弦相似度.评估2组图像或图像-文本对之间的相似度,CLIP-Score分数越高表示2组图像越相似或图像-文本对越匹配,说明生成图像质量或图像与文本提示一致性越高.
PCK预测关键点与真实关键点之间的距离小于某个阈值的比例,即正确检测的关键点所占百分比.评估姿态估计的准确度,PCK分数越高表示姿态估计预测结果越准确,说明生成图像的关键点准确度越高.
OKS2组关键点之间的距离,考虑了关键点的可见性、人体尺寸和权重分配.评估2组人体姿势的匹配度,OKS分数越高表示2组关键点越接近,说明生成图像的关键点准确度越高.
生成效率$ \eta $对1张人员行为图像,模型生成任意张图像,其中能被行为识别模型检测出人员行为的图像与生成总数量的比值.评估模型生成效率,比值越高,说明生成图像可用概率越大,模型生成效率越高.