Stable Diffusion扩散模型推导公式的基础知识

文章目录 隐藏

1、独立事件的条件概率

2、贝叶斯公式、先验概率、后验概率、似然、证据

6、期望

9、ELBO :Evidence Lower Bound

10、一元二次方程

1、独立事件的条件概率

A 和 B 是两个独立事件：

⇒

Rightarrow

$\Rightarrow$

(

∣

)

(

)

P(A|B)=P(A)

$P (A ∣ B) = P (A)$ ，

(

∣

)

(

)

P(B|A)=P(B)

$P (B ∣ A) = P (B)$ ，

⇒

Rightarrow

$\Rightarrow$

(

∣

)

(

∣

)

(

∣

)

P(A,B|C)=P(A|C)P(B|C)

$P (A, B ∣ C) = P (A ∣ C) P (B ∣ C)$

2、贝叶斯公式、先验概率、后验概率、似然、证据

贝叶斯公式：

(

∣

)

(

∣

)

(

)

(

)

P(A|B)=frac{P(B|A)P(A)}{P(B)}

$P (A ∣ B) = \frac{P ( B ∣ A ) P ( A )}{P ( B )}$

先验概率(prior)：P(A)
后验概率(posterior)：P(A|B)
似然 (likelihood)：P(B|A)
证据(evidence)：P(B)

举例：

(

−

∣

)

(

∣

−

)

(

−

)

(

)

P(x_{t-1}|x_t)=frac{P(x_t|x_{t-1})P(x_{t-1})}{P(x_t)}

$P (x_{t - 1} ∣ x_{t}) = \frac{P ( x _{t} ∣ x _{t - 1} ) P ( x _{t - 1} )}{P ( x _{t} )}$

3、马尔可夫链

马尔可夫链:下一状态的概率分布仅取决于当前状态，与过去的状态无关

(

∣

−

)

(

∣

−

)

P(x_t|x_{t-1},x_{t-2}…x_1x_0)=P(x_t|x_{t-1})

$P (x_{t} ∣ x_{t - 1}, x_{t - 2} \dots x_{1} x_{0}) = P (x_{t} ∣ x_{t - 1})$

正向扩散过程：

(

)

(

)

(

∣

)

(

∣

)

(

−

∣

−

)

(

∣

−

)

q(x_0:x_T)=q(x_0)q(x_1|x_0)q(x_2|x_1)…q(x_{T-1}|x_{T-2})q(x_T|x_{T-1})

$q (x_{0} : x_{T}) = q (x_{0}) q (x_{1} ∣ x_{0}) q (x_{2} ∣ x_{1}) \dots q (x_{T - 1} ∣ x_{T - 2}) q (x_{T} ∣ x_{T - 1})$

逆向扩散过程：

(

)

(

)

(

−

∣

)

(

−

∣

−

)

(

∣

)

(

∣

)

p(x_0:x_T)=p(x_T)p(x_{T-1}|x_T)p(x_{T-2}|x_{T-1})…p(x_1|x_2)p(x_0|x_1)

$p (x_{0} : x_{T}) = p (x_{T}) p (x_{T - 1} ∣ x_{T}) p (x_{T - 2} ∣ x_{T - 1}) \dots p (x_{1} ∣ x_{2}) p (x_{0} ∣ x_{1})$

4、正态分布 / 高斯分布

(

)

−

(

−

)

f(x)=frac{1}{sqrt{2pi}sigma}e^{-frac{(x-mu)^2}{2sigma^2}}

$f (x) = \frac{1}{2 π σ} e^{- \frac{( x - μ ) ^{2}}{2 σ ^{2}}}$

∼

(

)

xsim mathcal{N}(mu,sigma^2)

$x \sim N (μ, σ^{2})$

高斯分布的性质：
A、如果

∼

(

)

Xsim mathcal{N}(mu,sigma^2)

$X \sim N (μ, σ^{2})$ ，那么

∼

(

)

aX+Bsim mathcal{N}(amu+b,a^2sigma^2)

$a X + B \sim N (a μ + b, a^{2} σ^{2})$
B、两个正态分布相加，其结果也是正态分布：

∼

(

)

Xsim mathcal{N}(mu_1,sigma_1^2)

$X \sim N (μ_{1}, σ_{1}^{2})$ ；

∼

(

)

Ysim mathcal{N}(mu_2,sigma_2^2)

$Y \sim N (μ_{2}, σ_{2}^{2})$ ，则

∼

(

)

X+Ysimmathcal{N}(mu_1+mu_2,sigma_1^2+sigma_2^2)

$X + Y \sim N (μ_{1} + μ_{2}, σ_{1}^{2} + σ_{2}^{2})$

5、重参数化技巧

对于高斯分布:

∼

(

)

Xsim mathcal{N}(mu,sigma^2)

$X \sim N (μ, σ^{2})$ ，采样这个操作本身是不可导的，也就无法通过BP来对参数进行优化。但是我们可以通过重参数化技巧，将简单分布的采样结果变换到特定分布中，如此一来则可以对参数进行求导,
具体操作：
A、引入服从标准正态分布的随机变量：

∼

(

)

zsimmathcal{N}(0,1)

$z \sim N (0, 1)$
B、令

x=mu+sigma z

$x = μ + σ z$ ，这样就满足

∼

(

)

Xsimmathcal{N}(mu,sigma^2)

$X \sim N (μ, σ^{2})$

6、期望

期望是指随机变量取值的平均值，用来刻画随机变量的集中位置,

(1)离散型随机变量
离散型随机变量X的取值为

x_1,x_2,x_3,…….,x_n

$x_{1}, x_{2}, x_{3}, \dots\dots., x_{n}$ ，对应的概率为

p_1,p_2,p_3,……,p_n

$p_{1}, p_{2}, p_{3}, \dots\dots, p_{n}$ ，
则X的期望为：

(

)

∑

E(X)=sum_{i=1}^{n}x_ip_i

$E (X) = \sum_{i = 1}^{n} x_{i} p_{i}$
————————————————————————————————

若离散变量

$Y$ 符合函数

(

)

Y= g(X)

$Y = g (X)$ ，

(

)

g(X)

$g (X)$ 是连续函数，且

∑

(

)

sum_{i=1}^n g(x_i)p_i

$\sum_{i = 1}^{n} g (x_{i}) p_{i}$ 绝对收敛，
则离散变量

$Y$ 的期望为：

(

)

∑

(

)

E(X)=sum_{i=1}^n g(x_i)p_i

$E (X) = \sum_{i = 1}^{n} g (x_{i}) p_{i}$

(2)连续型随机变量
连续型随机变量

$X$ 的概率密度函数为

(

)

f(x)

$f (x)$ ，
则

$X$ 的期望为：

(

)

∫

−

∞

(

)

E(X)=int_{-infty}^infty xf(x){rm d}x

$E (X) = \int_{- \infty}^{\infty} x f (x) d x$ ，
若随机变量

$Y$ 符合函数

(

)

Y = g(x)

$Y = g (x)$ ，且

∫

−

∞

(

)

(

)

int_{-infty}^infty g(x)f(x){rm d}x

$\int_{- \infty}^{\infty} g (x) f (x) d x$ 绝对收敛，
则随机变量

$Y$ 的期望为：

(

)

∫

−

∞

(

)

(

)

E(Y)=int_{-infty}^infty g(x)f(x){rm d}x

$E (Y) = \int_{- \infty}^{\infty} g (x) f (x) d x$

注意: 对于连续型随机变量，期望就是积分，满足条件的积分也可以写成期望的形式。这在之后的公式推导过程中，我们会使用到期望与积分写法的转换，

7、KL散度、高斯分布的KL散度

KL散度的作用: 用于衡量2个概率分布(分布

$p$ 和分布

$q$ )之间的差异，

(

∣

)

(

)

−

(

)

∫

(

)

(

)

(

)

∼

(

)

[

(

)

(

)

]

D_{KL}(p||q)=H(p,q)-H(p)=int_x p(x)logfrac{p(x)}{q(x)}dx=E_{xsim p(x)}[logfrac{p(x)}{q(x)}]

$D_{K L} (p ∣∣ q) = H (p, q) - H (p) = \int_{x} p (x) l o g \frac{p ( x )}{q ( x )} d x = E_{x \sim p (x)} [l o g \frac{p ( x )}{q ( x )}]$

其中:

(

)

H(p, q)

$H (p, q)$ 表示分布

$p$ 和分布

$q$ 的交叉熵，

(

)

H(p)

$H (p)$ 表示分布

$p$ 的熵，

KL散度的重要性质：

$D_{KL}(p||q)ge0$
当分布 $p$ 与分布 $q$ 完全一样时， $D_{KL}(p||q)=0$
对于相同的分布 $p$ 和分布 $q$ ，这里所说的相同的分布是 $D_{KL}(p||q)$ 与 $D_{KL}(q||p)$ 中的2个 $p$ 和2个 $q$ 是一样的， $D_{KL}(p||q)$ 与 $D_{KL}(q||p)$ 计算所得到的值不一样，
对于 $D_{KL}(p||q)$ ，我们一般认为 $p (x)$ 是真实分布， $q (x)$ 是预测分布， $D_{KL}(p||q)$ 是
求预测分布 $q (x)$ 与真实分布 $p (x)$ 之间的差距，

高斯分布的KL散度:

(

)

(

)

−

(

−

)

p(x)=mathcal{N}(mu_1,sigma_1)=frac{1}{sqrt{2pi}sigma_1}e^-frac{(x-mu_1)^2}{2sigma_1^2}

$p (x) = N (μ_{1}, σ_{1}) = \frac{1}{2 π σ _{1}} e^{-} \frac{( x - μ _{1} ) ^{2}}{2 σ _{1}^{2}}$ ，

(

)

(

)

−

(

−

)

q(x)=mathcal{N}(mu_2,sigma_2)=frac{1}{sqrt{2pi}sigma_2}e^-frac{(x-mu_2)^2}{2sigma_1^2}

$q (x) = N (μ_{2}, σ_{2}) = \frac{1}{2 π σ _{2}} e^{-} \frac{( x - μ _{2} ) ^{2}}{2 σ _{1}^{2}}$ ，

(

∣

∑

)

∣

(

∣

∑

)

[

∑

−

(

∑

−

∑

)

(

−

)

∑

−

(

−

)

]

{rm KL}(mathcal{N}({rm x}|mu_1,sum_1)||mathcal{N}({rm x}|mu_2,sum_2))=frac{1}{2}big[ logfrac{sum_2}{sum_1}-K+tr(sum_2^{-1}sum_1)+(mu_1-mu_2)^Tsum_2^{-1}(mu_1-mu_2)big]

$KL (N (x ∣ μ_{1}, \sum_{1}) ∣∣ N (x ∣ μ_{2}, \sum_{2})) = \frac{1}{2} [l o g \frac{\sum _{2}}{\sum _{1}} - K + t r (\sum_{2}^{- 1} \sum_{1}) + (μ_{1} - μ_{2})^{T} \sum_{2}^{- 1} (μ_{1} - μ_{2})]$ ，

(

)

−

(

−

)

D_{KL}(p,q)=logfrac{sigma_2}{sigma_1}-frac{1}{2}+frac{sigma_1^2+(mu_1-mu_2)^2}{2sigma_2^2}

$D_{K L} (p, q) = l o g \frac{σ _{2}}{σ _{1}} - \frac{1}{2} + \frac{σ _{1}^{2} + ( μ _{1} - μ _{2} ) ^{2}}{2 σ _{2}^{2}}$ ，

推导过程: https://blog.csdn.net/hegsns/article/details/104857277

8、极大似然估计

概括描述:已知抽取的样本，求概率分布的参数

—————————————————————————————————————————–

9、ELBO :Evidence Lower Bound

10、一元二次方程

文章来源于互联网:Stable Diffusion扩散模型推导公式的基础知识

相关推荐: AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型轻松文生视频

学习前言在过年期间，OpenAI放出了SORA文生视频的预览效果，一瞬间各大媒体争相报道，又引爆了一次科技圈，可惜的是，SORA依然没选择开源。在这个契机下，本来我也对文生视频的工作非常感兴趣，所以也研究了一些与SORA相关的技术，虽然我们没有像OpenA…

Stable Diffusion扩散模型推导公式的基础知识

1、独立事件的条件概率

2、贝叶斯公式、先验概率、后验概率、似然、证据

3、马尔可夫链

4、正态分布 / 高斯分布

5、重参数化技巧

6、期望

7、KL散度、高斯分布的KL散度

8、极大似然估计

9、ELBO :Evidence Lower Bound

10、一元二次方程

相关推荐

对比kimi、通义千问、文心一言的写代码能力

热门文章

AI大模型,我们的未来

1、独立事件的条件概率

2、贝叶斯公式、先验概率、后验概率、似然、证据

3、马尔可夫链

4、正态分布 / 高斯分布

5、重参数化技巧

6、期望

7、KL散度 、高斯分布的KL散度

8、极大似然估计

9、ELBO :Evidence Lower Bound

10、一元二次方程

相关推荐

对比kimi、通义千问、文心一言的写代码能力

热门文章

AI大模型,我们的未来

7、KL散度、高斯分布的KL散度