AI大模型教程
一起来学习

DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion

  1. 问题引入
  • 输入参考图片

    x

    0

    x_0

    x0
    和pose序列

    {

    p

    1

    ,


    ,

    p

    N

    }

    {p_1,cdots,p_N}

    {p1,,pN}
    ,输出对应视频

    {

    x

    1

    ,


    ,

    x

    N

    }

    {x_1′,cdots,x_N’}

    {x1,,xN}
  • 模型在推理的时候是帧与帧之间是独立生成的;
  • 将原本的文生图模型改造成pose&image guided video generation model
  1. methods
  • appearence控制:Split CLIP-VAE Encoder,之前的方法将图片条件和noised latents结合到一起作为输入,但是这种方法是为了spatial的align,所以本文采取了另一种办法,也就是结合使用CLIP和VAE,最初和VAE embedding相关的权重设置为0,最后得到的embedding

    c

    I

    =

    A

    (

    c

    C

    L

    I

    P

    ,

    c

    V

    A

    E

    )

    c_I = A(c_{CLIP},c_{VAE})

    cI=A(cCLIP,cVAE)
    ,其中

    A

    A

    A
    代表adapter;
  • pose控制:采用五个连续pose帧

    c

    p

    =

    {

    p

    i

    2

    ,

    p

    i

    1

    ,

    p

    i

    ,

    p

    i

    +

    1

    ,

    p

    i

    +

    2

    }

    c_p={p_{i – 2},p_{i – 1},p_i,p_{i + 1},p_{i + 2}}

    cp={pi2,pi1,pi,pi+1,pi+2}
    ,这些和noised latents concat到一起作为输入,输入修改了以接收额外的10个通道,初始化参数为0;
  • 训练:根据上面的描述初始化模型参数之后,分为两个阶段进行训练,第一个阶段在完整数据集上面进行训练,第二个阶段在特定主题数据上进行微调;
  • Pose and Image Classifier-Free Guidance:

    ϵ

    θ

    (

    z

    t

    ,

    c

    i

    ,

    c

    p

    )

    =

    ϵ

    θ

    (

    z

    t

    ,

    ,

    )

    +

    s

    I

    (

    ϵ

    θ

    (

    z

    t

    ,

    c

    I

    ,

    )

    ϵ

    θ

    (

    z

    t

    ,

    ,

    )

    )

    +

    s

    p

    (

    ϵ

    θ

    (

    z

    t

    ,

    c

    I

    ,

    c

    p

    )

    ϵ

    θ

    (

    z

    t

    ,

    c

    I

    ,

    )

    )

    epsilon_theta(z_t,c_i,c_p) = epsilon_theta(z_t,empty,empty) + s_I(epsilon_theta(z_t,c_I,empty)-epsilon_theta(z_t,empty,empty)) + s_p(epsilon_theta(z_t,c_I,c_p)-epsilon_theta(z_t,c_I,empty))

    ϵθ(zt,ci,cp)=ϵθ(zt,,)+sI(ϵθ(zt,cI,)ϵθ(zt,,))+sp(ϵθ(zt,cI,cp)ϵθ(zt,cI,))

    s

    I

    s_I

    sI
    保证和输入图片的appearence相符,

    s

    p

    s_p

    sp
    保证和pose的align;
  1. 实验
  • UBC Fashion dataset

文章来源于互联网:DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion

相关推荐: AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频

学习前言 在过年期间,OpenAI放出了SORA文生视频的预览效果,一瞬间各大媒体争相报道,又引爆了一次科技圈,可惜的是,SORA依然没选择开源。 在这个契机下,本来我也对文生视频的工作非常感兴趣,所以也研究了一些与SORA相关的技术,虽然我们没有像OpenA…

赞(0)
未经允许不得转载:5bei.cn大模型教程网 » DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion
分享到: 更多 (0)

AI大模型,我们的未来

小欢软考联系我们