| FID | 2组图像经过Inception模型转换为特征向量后的Fréchet距离. | 衡量2组图像的整体相似度,FID分数越低表示2组图像越相似,说明生成图像质量越好. |
| KID | 2组图像经过Inception模型转换为特征向量后的核矩阵无偏估计值. | 衡量2组图像的整体相似度,KID分数越低表示2组图像越相似,说明生成图像质量越好. |
CLIP-Score (图-图/图-文) | 2组图像或图像-文本被经过预训练的CLIP模型转换为特征向量后的余弦相似度. | 评估2组图像或图像-文本对之间的相似度,CLIP-Score分数越高表示2组图像越相似或图像-文本对越匹配,说明生成图像质量或图像与文本提示一致性越高. |
| PCK | 预测关键点与真实关键点之间的距离小于某个阈值的比例,即正确检测的关键点所占百分比. | 评估姿态估计的准确度,PCK分数越高表示姿态估计预测结果越准确,说明生成图像的关键点准确度越高. |
| OKS | 2组关键点之间的距离,考虑了关键点的可见性、人体尺寸和权重分配. | 评估2组人体姿势的匹配度,OKS分数越高表示2组关键点越接近,说明生成图像的关键点准确度越高. |
| 生成效率$ \eta $ | 对1张人员行为图像,模型生成任意张图像,其中能被行为识别模型检测出人员行为的图像与生成总数量的比值. | 评估模型生成效率,比值越高,说明生成图像可用概率越大,模型生成效率越高. |