【Stable Diffusion】FID、CLIP、cfg-scales都是什么

文章目录 隐藏

在stable-diffusion 仓库中，是这样评价模型的。

Evaluations with different classifier-free guidance scales (1.5, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0) and 50 PLMS sampling steps show the relative improvements of the checkpoints，

对应了这张图

图里的FID score 、Clip score 和 cfg-scales 都是什么意思呢？

FID score

FID（Fréchet Inception Distance ） score 是一种用于评估生成图像质量的度量标准，专门用于评估模型生成图片的性能，计算公式如下所示：

(

)

∣

−

∣

(

−

)

mathrm{FID}(p, q) = ||mu_p – mu_q||_2^2 + mathrm{Tr}(C_p + C_q – 2sqrt{C_pC_q})

$FID (p, q) = ∣∣ μ_{p} - μ_{q} ∣ ∣_{2}^{2} + Tr (C_{p} + C_{q} - 2 C_{p} C_{q})$

其中，

$p$ 表示真实图像的分布，

$q$ 表示生成图像的分布，

mu_p

$μ_{p}$ 和

mu_q

$μ_{q}$ 分别表示两个分布的特征向量的均值，

C_p

$C_{p}$ 和

C_q

$C_{q}$ 分别表示两个分布的特征向量的协方差矩阵。

mathrm{Tr}

$Tr$ 表示矩阵的迹运算，

∣

⋅

∣

||cdot||_2

$∣∣ \cdot ∣ ∣_{2}$ 表示欧几里得范数。

具体来说,

FID

⁡

operatorname{FID}

$FID$ 首先用 Inception network提取真实数据和生成数据的特征向量,然后计算这两个特征向量集合的均值

mu_1

$μ_{1}$ ,

mu_2

$μ_{2}$ 和协方差矩阵

Sigma_1

$Σ_{1}$ ,

Sigma_2

$Σ_{2}$ 。最后计算上述公式得到

FID

⁡

operatorname{FID}

$FID$ 值。

FID

⁡

operatorname{FID}

$FID$ 值越低代表两个分布越相似,生成的数据与真实数据分布越相似。

Clip score

Clip score是指将文本和图像对输入到OpenAI的CLIP（Contrastive Language-Image Pre-training）模型后分别转换为特征向量，然后计算它们之间的余弦相似度。当CLIP Score较高时，图像-文本对之间的相关性更高。CLIP Score评估自然语言和图像对之间的匹配度和相关性。值越大（接近1），评估越高。原始论文点这里

CFG Scale

CFG Scale 是Classifier Free Guidance Scale 的缩写，代表提示词相关性。增加这个值将导致图像更接近你的提示,但过高会让图像色彩过于饱和，太高后在一定程度上降低了图像质量。可以适当增加采样步骤来抵消画质的劣化。一般在5~15之间为好，7，9，12是3个常见的设置值。

总结

FID score 计算生成的图像与原始图像的距离，越小越好。
Clip score 计算生成的图像与提示词之间的相关性，越大越好。
CFG Scale 是超参数，用于调整生成图片与提示词的相关性。

文章来源于互联网:【Stable Diffusion】FID、CLIP、cfg-scales都是什么

【Stable Diffusion】FID、CLIP、cfg-scales都是什么

FID score

Clip score

CFG Scale

总结

相关推荐

对比kimi、通义千问、文心一言的写代码能力

热门文章

AI大模型,我们的未来