Pixel-Aware Stable Diffusion for Realistic Image Super-Resolution and Personalized Stylization

问题引入

当前的基于SD的方法缺乏对图片结构的保持，所以本文提出pixel-aware cross atten来引入图片的结构信息，并且引入了degradation removal module来预处理作为生成条件的图片；

methods

Degradation Removal Module：提取degradation无关的low level特征作为生成条件，使用一个金字塔形的网络，最后训练通过toRGB的输出和HR做L1损失完成；
Pixel-Aware Cross Attention (PACA)：condition的feature与原始unet进行交互的方式有变化，原始的交互方式通过简单的zero-convolution然后相加实现，但是无法保证图片原有的结构，所以本文提出了另一种方法，对于原始unet和controlnet的feature $x, y$ ，首先将两者进行reshape $x’inmathbb{R}^{h*wtimes c},y’inmathbb{R}^{h*wtimes c}$ ，之后进行cross attention $Softmax(frac{QK^T}{sqrt{d}})cdot V$ ，其中 $Q = t o Q (x^{'}), K = t oK (y^{'}), V = t o V (y^{'})$ ，因为controlnet分支的输入没有经过encoder所以可以比较好的保持图片结构；
Adjustable Noise Schedule (ANS)：测试时候和训练时候的在T时刻z的状态不一样，在测试的时候是纯噪声，所以本文在测试的时候T时刻的z是由LR加噪声得到的；
High-Level Information：之前的模型将text prompt用null来代替训练超分模型，本文使用resnet yolo和blip来获取信息代替；

实验

文章来源于互联网:Pixel-Aware Stable Diffusion for Realistic Image Super-Resolution and Personalized Stylization

相关推荐: 基于 LlaMA 3 + LangGraph 在windows本地部署大模型（一）

基于LlaMA 3 + LangGraph 在windows本地部署大模型（一） RAG 是未来人工智能应用的基石。大家并不是在寻求仅仅产生无意义反应的人工智能。而目标是人工智能能够从特定文档集中检索答案，理解查询的上下文，指导自己搜索其嵌入内容或在必要时诉…

Pixel-Aware Stable Diffusion for Realistic Image Super-Resolution and Personalized Stylization

相关推荐

对比kimi、通义千问、文心一言的写代码能力

热门文章

AI大模型,我们的未来