在stable-diffusion 仓库中,是这样评价模型的。
Evaluations with different classifier-free guidance scales (1.5, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0) and 50 PLMS sampling steps show the relative improvements of the checkpoints,
对应了这张图
图里的FID score 、Clip score 和 cfg-scales 都是什么意思呢?
FID score
FID(Fréchet Inception Distance ) score 是一种用于评估生成图像质量的度量标准,专门用于评估模型生成图片的性能,计算公式如下所示:
F
I
D
(
p
,
q
)
=
∣
∣
μ
p
−
μ
q
∣
∣
2
2
+
T
r
(
C
p
+
C
q
−
2
C
p
C
q
)
mathrm{FID}(p, q) = ||mu_p – mu_q||_2^2 + mathrm{Tr}(C_p + C_q – 2sqrt{C_pC_q})
FID(p,q)=∣∣μp−μq∣∣22+Tr(Cp+Cq−2CpCq)
其中,
p
p
p 表示真实图像的分布,
q
q
q 表示生成图像的分布,
μ
p
mu_p
μp 和
μ
q
mu_q
μq 分别表示两个分布的特征向量的均值,
C
p
C_p
Cp 和
C
q
C_q
Cq 分别表示两个分布的特征向量的协方差矩阵。
T
r
mathrm{Tr}
Tr 表示矩阵的迹运算,
∣
∣
⋅
∣
∣
2
||cdot||_2
∣∣⋅∣∣2 表示欧几里得范数。
具体来说,
FID
operatorname{FID}
FID首先用 Inception network提取真实数据和生成数据的特征向量,然后计算这两个特征向量集合的均值
μ
1
mu_1
μ1,
μ
2
mu_2
μ2 和协方差矩阵
Σ
1
Sigma_1
Σ1 ,
Σ
2
Sigma_2
Σ2。最后计算上述公式得到
FID
operatorname{FID}
FID值。
FID
operatorname{FID}
FID 值越低代表两个分布越相似,生成的数据与真实数据分布越相似。
Clip score
Clip score是指将文本和图像对输入到OpenAI的CLIP(Contrastive Language-Image Pre-training)模型后分别转换为特征向量,然后计算它们之间的余弦相似度。当CLIP Score较高时,图像-文本对之间的相关性更高。CLIP Score评估自然语言和图像对之间的匹配度和相关性。值越大(接近1),评估越高。原始论文点这里
CFG Scale
CFG Scale 是Classifier Free Guidance Scale 的缩写,代表提示词相关性。增加这个值将导致图像更接近你的提示,但过高会让图像色彩过于饱和,太高后在一定程度上降低了图像质量。可以适当增加采样步骤来抵消画质的劣化。一般在5~15之间为好,7,9,12是3个常见的设置值。
总结
FID score 计算生成的图像与原始图像的距离,越小越好。
Clip score 计算生成的图像与提示词之间的相关性,越大越好。
CFG Scale 是超参数,用于调整生成图片与提示词的相关性。
5bei.cn大模型教程网










