DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion

UW&UCB&Google&NVIDIA ICCV23
https://github.com/johannakarras/DreamPose?tab=readme-ov-file

问题引入

输入参考图片 $x_0$ 和pose序列 ${p_1,cdots,p_N}$ ，输出对应视频 ${x_1′,cdots,x_N’}$ ；
模型在推理的时候是帧与帧之间是独立生成的；
将原本的文生图模型改造成pose&image guided video generation model；

methods

appearence控制：Split CLIP-VAE Encoder，之前的方法将图片条件和noised latents结合到一起作为输入，但是这种方法是为了spatial的align，所以本文采取了另一种办法，也就是结合使用CLIP和VAE，最初和VAE embedding相关的权重设置为0，最后得到的embedding $c_I = A(c_{CLIP},c_{VAE})$ ，其中 $A$ 代表adapter；
pose控制：采用五个连续pose帧 $c_p={p_{i – 2},p_{i – 1},p_i,p_{i + 1},p_{i + 2}}$ ，这些和noised latents concat到一起作为输入，输入修改了以接收额外的10个通道，初始化参数为0；
训练：根据上面的描述初始化模型参数之后，分为两个阶段进行训练，第一个阶段在完整数据集上面进行训练，第二个阶段在特定主题数据上进行微调；
Pose and Image Classifier-Free Guidance： $epsilon_theta(z_t,c_i,c_p) = epsilon_theta(z_t,empty,empty) + s_I(epsilon_theta(z_t,c_I,empty)-epsilon_theta(z_t,empty,empty)) + s_p(epsilon_theta(z_t,c_I,c_p)-epsilon_theta(z_t,c_I,empty))$ ， $s_I$ 保证和输入图片的appearence相符， $s_p$ 保证和pose的align；

实验

UBC Fashion dataset

文章来源于互联网:DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion

相关推荐: AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型轻松文生视频

学习前言在过年期间，OpenAI放出了SORA文生视频的预览效果，一瞬间各大媒体争相报道，又引爆了一次科技圈，可惜的是，SORA依然没选择开源。在这个契机下，本来我也对文生视频的工作非常感兴趣，所以也研究了一些与SORA相关的技术，虽然我们没有像OpenA…

DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion

相关推荐

对比kimi、通义千问、文心一言的写代码能力

热门文章

AI大模型,我们的未来