InstructIR: High-Quality Image Restoration Following Human Instructions 论文阅读笔记

🕗 发布于 2024-11-05 17:15 论文阅读笔记

在这里插入图片描述

这是Radu大佬所在的Würzburg大学的computer vision lab实验室发表在ECCV2024上的一篇论文，代码开源。
文章提出了一种文本引导的All-in-One的restoration模型，如下图所示：
这个工作其实跟"InstructPix2Pix: Learning to Follow Image Editing Instructions"这个工作很像，下面是instructPix2Pix的流程，其核心思想是利用GPT-3，stable diffusion和prompt2prompt这三个方法，生成图像编辑数据集，用来train一个stable diffusion model，实现文本引导图像编辑
而下面是instructIR的流程，backbone的模型用的是NAFNet。首先用GPT4先生成一堆prompt，并手动筛除掉一些低质量的prompt，这些prompt都是带有degradation type的标注的（可能是生成的时候就带有标注，并手动修正了），最终产生用于训练的1w个带分类标注的prompt。然后用一个纯NLP的sentence text encoder（而非常见的CLIP text encoder）来对句子提取文本编码。这个text encoder是在NLP任务上pretrain好后fix住的，文章说finetue这个text encoder效果不好，所以直接fix住，在其输出上再接一层MLP，只train这个MLP，MLP的输出e即是直接用到instructIR的文本embedding $e$ 。
在训练的时候，会增加一个分类loss，把 $e$ 送进一个分类头，输出degradation type的分类结果，并计算分类损失。
NAFNet本来是没有文本进去的，所以要改一下，其实就是加了个通道的加权，把这个文本的embedding，送进MLP+sigmoid，得到的1维向量用来对特征进行通道乘法，然后加了个block进一步处理，再加个残差，这就是往NAFNet的encoder和decoder的各个layer中添加的ICB：
训练的时候，是在多种degradation的数据集的混合数据集上train的，包括BSD400，LOL等，然后每个sample是已知degradation（不过强度是多种的，比如denoise就有3种sigma，所以文章专门说自己是blind restoration因为只知道type不知道强度），所以从预先生成的对应degradation的prompt库中随机抽一个prompt。
实验结果看起来不错：
这里的w/o text就是消融实验，把文本的部分拆掉重新train一个模型出来，可以看到效果是很差的，说明文本确实起作用。

原文地址：https://blog.csdn.net/weixin_44326452/article/details/143374535

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：设计模式之——简单工厂模式
下一篇：论文阅读-用于图像识别的深度残差学习

深度学习：Masked Self-Attention 详解
Masked Self-Attention 是 Transformer 架构中解码器的关键组件，特别用于处理自回归任务，如文本生成。该机制确保模型在生成一个序列的每个元素时只能利用之前元素的信息，防止
阅读更多2024-11-07
DBeaver如何快速格式化sql语句，真简单！
我之前在使用DBeaver的时候，一直不知道其可以格式化sql语句，导致sql语句看起来比较杂乱，今天就来介绍下DBeaver如何格式化sql语句。首先，我们打开一个sql窗口，在里面输入我们要查询的
阅读更多2024-11-07
【C++】红黑树
红⿊树是⼀棵⼆叉搜索树，他的每个结点增加⼀个存储位来表⽰结点的颜色，可以是红色或者黑色。通过对任何⼀条从根到叶⼦的路径上各个结点的颜色进行约束，红⿊树确保没有⼀条路径会⽐其他路径⻓出2倍，因而是接近平
阅读更多2024-11-07
高效数据集成：从旺店通到金蝶云
通过轻易云数据集成平台，我们能够高效地完成从源平台到目标平台的数据ETL转换和写入过程。利用灵活的元数据配置和强大的API调用能力，不仅简化了复杂的数据集成任务，还大大提高了业务透明度和效率。
阅读更多2024-11-07
安装sshfs
你会不会很烦躁，搭建Samba或NFS服务，结果因为不同网段，导致无法挂载到windows或者linux操作系统正常使用。
阅读更多2024-11-07
基于SpringBoot的高校心理教育辅导设计与实现
在这种形势下，充分发挥互联网快捷方便的优势，弥补传统心理咨询方式的不足，开发一个高校心理教育辅导系统，不但实时地为在校学生提供专业的心理测试咨询服务，而且在学生隐私的保护和自尊心的维护方面也很有意义，
阅读更多2024-11-07
无人机目标检测与语义分割数据集（猫脸码客第238期）
通过分析这些数据，研究人员可以了解无人机在不同条件下的飞行路径和轨迹变化情况，进而优化无人机的飞行路径规划算法。通过该数据集，研究人员可以深入分析无人机的飞行轨迹、速度、高度和风力条件等信息，优化无人
阅读更多2024-11-07
RK3568平台（基础篇）selinux内核安全
SELinux（Security-Enhanced Linux）是美国国家安全局在 Linux 开源社区的帮助下开发的一个强制访问控制（MAC，Mandatory Access Control）的安全
阅读更多2024-11-07
VisionPro —— 颜色匹配工具详解
复合颜色匹配工具将运行时图像的区域与复合颜色表进行比较，并确定哪种复合颜色生成最佳匹配。在向应用程序添加复合颜色匹配工具时，必须使用单个获取的图像或一系列单独的图像定义一组复合颜色。大多数应用程序将要
阅读更多2024-11-07
从CAB到PAB Oracle的AI 23.6（之二）
第二天在参会的途中就遇到了公司OGG的延迟问题。通过我快速的判断，我认为应该重启抽取进程。最终我的判断正确，这个问题得以解决。而我也把我的思路发给了昨天官方讲演OGG的老师。他也基本认可我的分析。我个
阅读更多2024-11-07

InstructIR: High-Quality Image Restoration Following Human Instructions 论文阅读笔记

相关文章