- UW&UCB&Google&NVIDIA ICCV23
- https://github.com/johannakarras/DreamPose?tab=readme-ov-file
- 问题引入
- 输入参考图片
x
0
x_0
x0和pose序列{
p
1
,
⋯
,
p
N
}
{p_1,cdots,p_N}
{p1,⋯,pN},输出对应视频{
x
1
′
,
⋯
,
x
N
′
}
{x_1′,cdots,x_N’}
{x1′,⋯,xN′}; - 模型在推理的时候是帧与帧之间是独立生成的;
- 将原本的文生图模型改造成pose&image guided video generation model;
- methods

- appearence控制:Split CLIP-VAE Encoder,之前的方法将图片条件和noised latents结合到一起作为输入,但是这种方法是为了spatial的align,所以本文采取了另一种办法,也就是结合使用CLIP和VAE,最初和VAE embedding相关的权重设置为0,最后得到的embedding
c
I
=
A
(
c
C
L
I
P
,
c
V
A
E
)
c_I = A(c_{CLIP},c_{VAE})
cI=A(cCLIP,cVAE),其中A
A
A代表adapter; - pose控制:采用五个连续pose帧
c
p
=
{
p
i
−
2
,
p
i
−
1
,
p
i
,
p
i
+
1
,
p
i
+
2
}
c_p={p_{i – 2},p_{i – 1},p_i,p_{i + 1},p_{i + 2}}
cp={pi−2,pi−1,pi,pi+1,pi+2},这些和noised latents concat到一起作为输入,输入修改了以接收额外的10个通道,初始化参数为0; - 训练:根据上面的描述初始化模型参数之后,分为两个阶段进行训练,第一个阶段在完整数据集上面进行训练,第二个阶段在特定主题数据上进行微调;
- Pose and Image Classifier-Free Guidance:
ϵ
θ
(
z
t
,
c
i
,
c
p
)
=
ϵ
θ
(
z
t
,
∅
,
∅
)
+
s
I
(
ϵ
θ
(
z
t
,
c
I
,
∅
)
−
ϵ
θ
(
z
t
,
∅
,
∅
)
)
+
s
p
(
ϵ
θ
(
z
t
,
c
I
,
c
p
)
−
ϵ
θ
(
z
t
,
c
I
,
∅
)
)
epsilon_theta(z_t,c_i,c_p) = epsilon_theta(z_t,empty,empty) + s_I(epsilon_theta(z_t,c_I,empty)-epsilon_theta(z_t,empty,empty)) + s_p(epsilon_theta(z_t,c_I,c_p)-epsilon_theta(z_t,c_I,empty))
ϵθ(zt,ci,cp)=ϵθ(zt,∅,∅)+sI(ϵθ(zt,cI,∅)−ϵθ(zt,∅,∅))+sp(ϵθ(zt,cI,cp)−ϵθ(zt,cI,∅)),s
I
s_I
sI保证和输入图片的appearence相符,s
p
s_p
sp保证和pose的align;
- 实验
- UBC Fashion dataset
文章来源于互联网:DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion
相关推荐: AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频
学习前言 在过年期间,OpenAI放出了SORA文生视频的预览效果,一瞬间各大媒体争相报道,又引爆了一次科技圈,可惜的是,SORA依然没选择开源。 在这个契机下,本来我也对文生视频的工作非常感兴趣,所以也研究了一些与SORA相关的技术,虽然我们没有像OpenA…
5bei.cn大模型教程网










