AI大模型教程
一起来学习

Pixel-Aware Stable Diffusion for Realistic Image Super-Resolution and Personalized Stylization

  1. 问题引入
  • 当前的基于SD的方法缺乏对图片结构的保持,所以本文提出pixel-aware cross atten来引入图片的结构信息,并且引入了degradation removal module来预处理作为生成条件的图片;
  1. methods
  • Degradation Removal Module:提取degradation无关的low level特征作为生成条件,使用一个金字塔形的网络,最后训练通过toRGB的输出和HR做L1损失完成;
  • Pixel-Aware Cross Attention (PACA):condition的feature与原始unet进行交互的方式有变化,原始的交互方式通过简单的zero-convolution然后相加实现,但是无法保证图片原有的结构,所以本文提出了另一种方法,对于原始unet和controlnet的feature

    x

    ,

    y

    x,y

    x,y
    ,首先将两者进行reshape

    x

    R

    h

    w

    ×

    c

    ,

    y

    R

    h

    w

    ×

    c

    x’inmathbb{R}^{h*wtimes c},y’inmathbb{R}^{h*wtimes c}

    xRhw×c,yRhw×c
    ,之后进行cross attention

    P

    A

    C

    A

    (

    Q

    ,

    K

    ,

    V

    )

    =

    S

    o

    f

    t

    m

    a

    x

    (

    Q

    K

    T

    d

    )

    V

    PACA(Q,K,V) = Softmax(frac{QK^T}{sqrt{d}})cdot V

    PACA(Q,K,V)=Softmax(d
    QKT
    )
    V
    ,其中

    Q

    =

    t

    o

    Q

    (

    x

    )

    ,

    K

    =

    t

    o

    K

    (

    y

    )

    ,

    V

    =

    t

    o

    V

    (

    y

    )

    Q = toQ(x’),K = toK(y’),V = toV(y’)

    Q=toQ(x),K=toK(y),V=toV(y)
    ,因为controlnet分支的输入没有经过encoder所以可以比较好的保持图片结构;
  • Adjustable Noise Schedule (ANS):测试时候和训练时候的在T时刻z的状态不一样,在测试的时候是纯噪声,所以本文在测试的时候T时刻的z是由LR加噪声得到的;
  • High-Level Information:之前的模型将text prompt用null来代替训练超分模型,本文使用resnet yolo和blip来获取信息代替;
  1. 实验

文章来源于互联网:Pixel-Aware Stable Diffusion for Realistic Image Super-Resolution and Personalized Stylization

相关推荐: 基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (一)

基于LlaMA 3 + LangGraph 在windows本地部署大模型 (一) RAG 是未来人工智能应用的基石。大家并不是在寻求仅仅产生无意义反应的人工智能。而目标是人工智能能够从特定文档集中检索答案,理解查询的上下文,指导自己搜索其嵌入内容或在必要时诉…

赞(0)
未经允许不得转载:5bei.cn大模型教程网 » Pixel-Aware Stable Diffusion for Realistic Image Super-Resolution and Personalized Stylization
分享到: 更多 (0)

AI大模型,我们的未来

小欢软考联系我们