AI大模型教程
一起来学习

【Stable Diffusion】FID、CLIP、cfg-scales都是什么

stable-diffusion 仓库中,是这样评价模型的。

Evaluations with different classifier-free guidance scales (1.5, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0) and 50 PLMS sampling steps show the relative improvements of the checkpoints,

对应了这张图

图里的FID score 、Clip score 和 cfg-scales 都是什么意思呢?

FID score

FID(Fréchet Inception Distance ) score 是一种用于评估生成图像质量的度量标准,专门用于评估模型生成图片的性能,计算公式如下所示:

F

I

D

(

p

,

q

)

=

μ

p

μ

q

2

2

+

T

r

(

C

p

+

C

q

2

C

p

C

q

)

mathrm{FID}(p, q) = ||mu_p – mu_q||_2^2 + mathrm{Tr}(C_p + C_q – 2sqrt{C_pC_q})

FID(p,q)=∣∣μpμq22+Tr(Cp+Cq2CpCq
)

其中,

p

p

p 表示真实图像的分布,

q

q

q 表示生成图像的分布,

μ

p

mu_p

μp

μ

q

mu_q

μq 分别表示两个分布的特征向量的均值,

C

p

C_p

Cp

C

q

C_q

Cq 分别表示两个分布的特征向量的协方差矩阵。

T

r

mathrm{Tr}

Tr 表示矩阵的迹运算,

2

||cdot||_2

∣∣2 表示欧几里得范数。

具体来说,

FID

operatorname{FID}

FID首先用 Inception network提取真实数据和生成数据的特征向量,然后计算这两个特征向量集合的均值

μ

1

mu_1

μ1,

μ

2

mu_2

μ2 和协方差矩阵

Σ

1

Sigma_1

Σ1 ,

Σ

2

Sigma_2

Σ2。最后计算上述公式得到

FID

operatorname{FID}

FID值。

FID

operatorname{FID}

FID 值越低代表两个分布越相似,生成的数据与真实数据分布越相似。

Clip score

Clip score是指将文本和图像对输入到OpenAI的CLIP(Contrastive Language-Image Pre-training)模型后分别转换为特征向量,然后计算它们之间的余弦相似度。当CLIP Score较高时,图像-文本对之间的相关性更高。CLIP Score评估自然语言和图像对之间的匹配度和相关性。值越大(接近1),评估越高。原始论文点这里

CFG Scale

CFG Scale 是Classifier Free Guidance Scale 的缩写,代表提示词相关性。增加这个值将导致图像更接近你的提示,但过高会让图像色彩过于饱和,太高后在一定程度上降低了图像质量。可以适当增加采样步骤来抵消画质的劣化。一般在5~15之间为好,7,9,12是3个常见的设置值。

总结

FID score 计算生成的图像与原始图像的距离,越小越好。
Clip score 计算生成的图像与提示词之间的相关性,越大越好。
CFG Scale 是超参数,用于调整生成图片与提示词的相关性。

文章来源于互联网:【Stable Diffusion】FID、CLIP、cfg-scales都是什么

赞(0)
未经允许不得转载:5bei.cn大模型教程网 » 【Stable Diffusion】FID、CLIP、cfg-scales都是什么
分享到: 更多 (0)

AI大模型,我们的未来

小欢软考联系我们