文献集合 之 Perceptual Quality Methods、Information Utilization Method

文献集合 之 Perceptual Quality Methods、Information Utilization Method

来自综述文章:《A systematic survey of deep learning-based single-image super-resolution》,2024,4月

文章链接:A Systematic Survey of Deep Learning-Based Single-Image Super-Resolution | ACM Computing Surveys

Perceptual Quality Methods

前言:

大多数方法只是简单地寻求重建具有高PSNR和SSIM的SR图像。然而,重建精度的提高并不总是伴随着视觉质量的提高。Blau等人[ 10 ]指出存在感知-失真权衡。它只能改善感知质量或失真,而改善一个必须以牺牲另一个为代价。因此,在这一部分中,我们提供了缓解这种权衡问题的方法,希望在保持图像良好的感知质量的同时提供更少的失真。

Perceptual Loss

虽然像素级损失,即L1和MSE损失,已被广泛用于实现高图像质量,但它们并没有捕获SR和HR图像之间的感知差异。为了解决这个问题,让损失函数更好地衡量图像之间的感知和语义差异,提出了内容损失、纹理损失和有针对性的感知损失。

引用号 年份 人物 标题 描述
91 2017(CVPR) Christian Ledig Photo-realistic single image super-resolution using a generative adversarial network 在 SISR 任务中,内容损失被广泛用于使图像与目标保持一致
176 2018(CVPR) Xintao Wang Recovering realistic texture in image super-resolution by deep spatial feature transform 在 SISR 任务中,内容损失被广泛用于使图像与目标保持一致
80 2016(ECCV) Justin Johnson Perceptual losses for real-time style transfer and super-resolution 借助纹理损失,模型在训练过程中倾向于生成与 HR 图像具有相同局部纹理的图像
142 2019(ICCV) Mohammad Saeed Rad Srobb: Targeted perceptual loss for single image super-resolution 传统的感知损失在不考虑语义信息的情况下估计整幅图像的重建误差,导致重建能力有限,该文章提出有针对性的感知损失,基于对象、背景和边界的标签在不同语义级别对图像进行惩罚,从而获得更逼真的纹理和更清晰的边缘,以重建逼真的超分辨率图像

Adversarial Training

2014年,生成对抗网络( Generative Adversarial Networks,GANs )被古德费洛等人提出[ 56,2014年 ],被广泛应用于计算机视觉任务中,如风格迁移、图像修复等。生成对抗网络由生成器和判别器组成。当判别器被训练来判断图像的真假时,生成器的目的是欺骗判别器而不是最小化到特定图像的距离,因此它倾向于生成与训练集具有相同统计特性的输出

引用号 年份 人物 标题 描述
91 2017(CVPR) Christian Ledig Photo-realistic single image super-resolution using a generative adversarial network 受GAN的启发,Ledig等人[ 91 ]提出了超分辨率生成对抗网络( Super-Resolution Generative Adversarial Network,SRGAN )。在SRGAN中,生成器G本质上是一个SR模型,它被训练来欺骗判别器D,而D被训练来区分SR图像和HR图像。因此,生成器可以学习产生与HR图像高度相似的输出,进而重建出更加真实自然的SR图像
177 2018(ECCV) Xintao Wang Esrgan: Enhanced super-resolution generative adversarial networks 在SRGAN [ 91 ]中,生成器是SRResNet,判别器使用雷德福等人[ 143 ]提出的架构。在ESRGAN [ 177 ]中,Wang等人对SRResNet做了两点修改:( 1 )将原始残差块替换为残差中的残差密集块;( 2 )去除BN层,提高模型的泛化能力。且ESRGAN 中采用相对论平均判别器替换标准判别器,学习两张图像之间的相对真实度,帮助生成器学习更清晰的边缘和更详细的纹理
139 2018(ECCV) Seong-Jin Park Srfeat: Single image super-resolution with feature discrimination 在SRFeat [ 139 ]中,Park等人指出基于GAN的SISR方法在重建图像中倾向于产生较少有意义的高频噪声。因此,他们采用了两个判别器:图像判别器和特征判别器,其中特征判别器是基于从VGG网络提取的中间特征图来训练的,以区分SR图像和HR图像。
178 2023(AAAI) Yanbo Wang High-Resolution GAN Inversion for Degraded Images in Large Diverse Datasets Wang等[ 178 ]提出了一种新颖的GAN反演框架,利用Style GAN - XL强大的生成能力,在SISR中表现出了较好的定量和定性结果。

Cycle Consistency

循环一致性假设源域和目标域之间存在某种潜在关系,并试图在域层面进行监督。确切地说,我们想要捕获一个图像集合的一些特殊特征,并研究如何将这些特征转化为另一个图像集合。为了实现这一点,Zhu等人[ 238 ]提出了循环一致性机制,该机制不仅学习了从源域到目标域的映射,还结合了反向映射。

在SISR中,循环一致性的思想也得到了广泛的讨论。给定低分辨率图像域X和高分辨率图像域Y,我们不仅学习了从低分辨率到高分辨率的映射,还学习了后向过程。

引用号 年份 人物 标题 描述
210 2018(CVPRW) Yuan Yuan Unsupervised image super-resolution using cycle-in-cycle generative adversarial networks 提出一种循环 - 循环网络,将噪声和模糊的输入首先映射到无噪声的低分辨率域,然后用预训练模型进行上采样
60 2020(CVPR) Yong Guo Closed-loop matters: Dual regression networks for single image super-resolution 在DRN [ 60 ]中,学习从HR到LR图像的映射来估计下采样核并重建LR图像,形成闭环以提供额外的监督。DRN还为我们提供了一种无监督学习SR的新方法,该方法使用成对和非成对数据训练模型。

Diffusion-based Method

受最近去噪扩散概率模型( DDPM ) [ 68,2020 ]的启发,一种新的条件图像生成方法被纳入到SISR任务中。与基于GAN的SISR方法相比,基于扩散模型的SISR方法[ 具有更好的保真度,减少了伪影的产生。
然而,基于扩散的SISR模型仍然需要大量的新样本,且模型收敛速度较慢,限制了其使用场景。因此,如何克服这些弊端仍然值得研究。

引用号 年份 人物 标题 描述
96 2022(Neurocomputing) Haoying Li Srdiff: Single image super-resolution with diffusion probabilistic models SRDiff [ 96 ]是第一个基于扩散的SISR模型,它通过马尔科夫链将高斯噪声逐步转换为以LR为输入条件的SISR图像,从而提供多样化和逼真的SISR预测。
147 2022(IEEE Transactions on Pattern Analysis and Machine Intelligence) Chitwan Saharia Image super-resolution via iterative refinement SR3 [ 147 ]利用训练好的模型对纯高斯噪声输入进行迭代求精,在不同噪声水平下进行去噪。与基于GAN的方法相比,它可以输出更真实的照片
52 2023(CVPR) Sicheng Gao Implicit Diffusion Models for Continuous Super-Resolution IDM [ 52 ]端到端的集成了隐式神经表示和去噪扩散模型,并在解码过程中使用隐式神经表示来学习连续的图像分辨率表示
149 2023(AAAI) Shuyao Shang ResDiff: Combining CNN and Diffusion Model for Image Super-Resolution 原文无描述
193 2023(CVPR) Zhixin Wang DR2: Diffusion-based Robust Degradation Remover for Blind Face Restoration DR2 [ 193 ]利用DDPM粗略地减少更复杂的低质量人脸图像,然后使用增强模块将其完全恢复到高分辨率( HR )人脸图像
167 2024([International Journal of Computer Vision) Jianyi Wang Exploiting Diffusion Prior for Real-World Image Super-Resolution 还有一类方法旨在利用基于先验扩散的模型来辅助SISR。例如,StableSR [ 167 ]和DiffBIR [ 110 ]通过使用预训练的文本到图像扩散模型的先验知识进行微调来实现真实世界的SISR,例如Stable diffusion [ 146 ]
110 2024(ECCV) Xinqi Lin Diffbir: Towards blind image restoration with generative diffusion prior 同上
146 2022(CVPR) Robin Rombach High-resolution image synthesis with latent diffusion models 同上
198 2023(ICCV) Bin Xia Diffir: Efficient diffusion model for image restoration 利用在真实图像上训练的预训练模型,将先验信息融入 SISR 模型,与传统 DDPM 相比,可使用更少的迭代次数获得准确估计

Information Utilization Method

前言:

在前述部分中,我们介绍了如何设计一个高效的超分辨重建模型,并获得超分辨图像的高重建精度和高感知质量。虽然目前的SISR模型已经取得了重大突破,但是如何利用图像内外的信息进一步提高模型的性能仍然值得探索。

Internal Statistics

在[ 241 ]中,Zontak等人发现有些图像块只存在于特定的图像中,而在任何外部数据库的例子中都找不到。因此,在外部图像上训练的SR方法由于缺少块信息而无法在此类图像上很好地工作,而基于内部统计的方法可能具有较好的性能。同时,Zontak等指出,在一般的自然图像集合中,单幅图像内部块的内部熵远小于块的外部熵。因此,利用内部图像统计进一步提升模型性能是一个不错的选择。

引用号 年份 人物 标题 描述
152 2018(CVPR) Assaf Shocher “zero-shot” super-resolution using deep internal learning 在ZSSR [ 152 ]中,内部图像统计特性被用于训练一个特定于图像的CNN,其中训练样本从测试图像本身中提取。在训练阶段,通过使用数据增强生成若干LR - HR对,并使用这些对训练一个CNN。在测试时,将LR图像ILR作为输入送入训练好的CNN,得到重建图像。在这个过程中,模型充分利用图像本身的内部统计信息进行自学习。
148 2019(ICCV) Tamar Rott Shaham Singan: Learning a generative model from a single natural image 在SinGAN [ 148 ]中,提出了一种全卷积GAN金字塔的无条件生成模型来学习图像不同尺度下的内部块分布。为了利用递归内部信息,他们对LR图像进行多次(视最终尺度而定)上采样,得到最终的SR输出。

Multi-factor Learning

通常,在SISR中,我们经常需要为不同的上采样因子训练特定的模型,并且很难出现期望一个模型可以适用于多个上采样因子的情况。为了解决这个问题,针对多个上采样因子提出了一些模型。令人惊讶的是,研究人员发现该方法可以充分挖掘不同上采样因子之间的尺度间相关性,从而可以进一步提高模型性能。

引用号 年份 人物 标题 描述
88 2017(CVPR) Wei-Sheng Lai Deep laplacian pyramid networks for fast and accurate super-resolution 在LapSRN [ 88 ]中,LR图像在金字塔网络中逐步重建以获得大规模结果,其中的中间结果可以直接作为相应的多因子结果。
108 2017(CVPRW) Bee Lim Enhanced deep residual networks for single image super-resolution Lim等人发现了多尺度任务之间相互关联的现象,即用预训练的低尺度网络初始化高尺度模型参数可以加速训练过程,提高性能。因此,他们提出了模型头部和尾部的尺度特异性处理模块来处理不同的上采样因子。
97 2020(IEEE Transactions on Circuits and Systems for Video Technology) Juncheng Li MDCN: Multi-scale dense cross network for image super-resolution 为了进一步挖掘不同上采样因子之间的尺度间相关性,Li等人进一步优化了MDCN中的策略[ 97 ]。不同于MDSR在模型首尾都引入了尺度相关的处理策略,MDCN可以最大限度地重用模型参数并学习尺度间的相关性。

Prior Guidance

由于简单易实现,大多数方法倾向于构建端到端的CNN模型来实现SISR。然而,由于大量有用的特征被丢失或损坏,它们很难重建出真实的高频细节。为了解决这个问题,提出了一种先验指导的SISR框架。大量实验表明,在图像先验的帮助下,模型可以更快地收敛,并获得更好的重建精度。近年来,许多图像先验被提出,如全变分先验、稀疏先验、边缘先验等。

引用号 年份 人物 标题 描述
203 2017(IEEE Transactions on Image Processing) Wenhan Yang Deep edge guided recurrent residual learning for image super-resolution Yang等人[ 203 ]将边缘先验与递归网络相结合,提出了一种用于SISR的深度边缘引导递归残差网络( Deep Edge Guided Recurrent Residual Network,DEGREE )
43 2020(IEEE Transactions on Image Processing) Faming Fang Soft-edge assisted network for single image super-resolution 之后,Fang等人[ 43 ]提出了一种高效准确的软边辅助网络( Soft-edge Assisted Network,SeaNet )。与DEGREE直接使用现成的边缘检测器检测图像边缘不同,SeaNet从构建的EdgeNet中自动学习更精确的图像边缘。同时,他们发现更精确的先验可以带来更显著的性能。
176 2018(CVPR) Xintao Wang Recovering realistic texture in image super-resolution by deep spatial feature transform 此外,图像先验对于基于GAN的模型也是有益的。例如,SFTGAN [ 176 ]利用语义类别先验,借助空间特征变换( spatial feature transform,SFT )生成更丰富、更逼真的纹理。利用这些来自高层任务的信息,可以很容易地分辨出相似的LR补丁,并生成更自然的文本细节
125 2020(CVPR) Cheng Ma Structure-preserving super resolution with gradient guidance 在SPSR [ 125 ]中,作者利用梯度图来指导图像恢复,以解决基于GAN的方法中的结构失真问题。其中,梯度图由一个梯度分支获得,并集成到SR分支中,以提供结构先验。借助梯度图,我们知道哪个区域更应该被关注,从而指导图像生成,减少几何失真。
19 2022(ACMMM) Chaofeng Chen Real-world blind super-resolution via feature matching with implicit high-resolution priors 在Fe MaSR [ 19 ]中,作者使用VQ - GAN [ 208 ]在HR图像中预训练得到的离散特征作为先验信息,通过从预训练的HR先验中匹配失真LR图像特征和无失真HR特征来进行图像复原。

Reference-based Method

引用号 年份 人物 标题 描述
232 2018(ECCV) Haitian Zheng Crossnet: An end-to-end reference-based super resolution network using cross-scale warping CrossNet提出使用光流在不同尺度上对齐参考图像和 LR 图像,然后将其连接到解码器的相应层。然而这些方法都假设参考图像与LR图像具有较好的对齐性
230 2019(CVPR) Zhifei Zhang Image super-resolution by neural texture transfer Zhang等人[ 230 ]利用LR和参考图像的VGG特征进行块匹配,自适应地将纹理从参考图像转移到LR图像。
201 2020(CVPR) Fuzhi Yang Learning texture transformer network for image super-resolution 在TTSR [ 201 ]中,Yang等人提出了一个纹理变换网络,用于从参考图像到LR图像的相关纹理的搜索和传输。

Knowledge Distillation

知识蒸馏是指将一个大的(教师)模型的表征能力转移到一个小的(学生)模型上,以提高学生模型的性能的一种技术。因此,它已被广泛用于网络压缩或进一步提高学生模型的性能,并在许多计算机视觉任务中显示了有效性。同时,知识蒸馏主要有两种:软标签蒸馏和特征蒸馏。在软标签蒸馏中,教师模型的softmax输出被视为软标签,为学生模型提供信息丰富的暗知识[ 67 ]。在特征蒸馏中,将中间特征图传递给学生模型[ 1、5]。

引用号 年份 人物 标题 描述
51 2018(ACCV) Qinquan Gao Image super-resolution using knowledge distillation 在SRKD [ 51 ]中,一个小型但高效的学生网络由一个深入而强大的教师网络引导,以实现与教师相似的特征分布。
93 2020(ECCV) Wonkyung Lee Learning with privileged information for efficient image super-resolution 在[ 93 ]中,教师网络利用HR图像作为特权信息,通过特征蒸馏将教师网络解码器的中间特征传递给学生网络,以便学生可以从HR图像训练的教师网络中学习高频细节。
122 2021(ACMMM) Xiaotong Luo Boosting lightweight single image super-resolution via joint-distillation 随后,JDSR [ 122 ]探索了一种联合蒸馏学习,通过使用HR的特权信息蒸馏与内部自蒸馏相结合,有效地提高了轻量级模型的蒸馏性能。
175 2021(CVPR) Xintao Wang Towards real-world blind face restoration with generative facial prior CSD [ 175 ]将对比学习和蒸馏任务相结合,进一步缩小了SISR的解空间。
224 2021(CVPR) Yiman Zhang Data-free knowledge distillation for image super-resolution 此外,为了解决无监督问题的模型压缩问题,[ 224 ]使用生成器在使用渐进蒸馏方案后合成接近原始数据的训练样本,以提高学生模型性能。
-------------本文结束-------------