文献集合 之 Efficient Network / Mechanism Design Methods
来自综述文章:《A systematic survey of deep learning-based single-image super-resolution》,2024,4月
文章链接:A Systematic Survey of Deep Learning-Based Single-Image Super-Resolution | ACM Computing Surveys
前言:2014年,Dong等人[ 38 ]提出了超分辨率卷积神经网络( Super-resolution Convolutional Neural Network,SRCNN,ECCV )。SRCNN是第一个基于CNN的SISR模型。
Residual Learning
在SRCNN中,研究人员发现通过增加更多的卷积层来增加感受野可以获得更好的结果。然而,直接堆叠层会导致梯度消失/爆炸和退化问题[64]。同时,增加层数会导致更高的训练误差和更昂贵的计算成本。
引用符号 | 年份 | 人物 | 标题 | 描述 |
---|---|---|---|---|
65 | 2016(CVPR) | Kaiming He | Deep residual learning for image recognition | 在 ResNet 中,He 等提出了残差学习框架,期望学习残差映射而非拟合整个潜在映射。在 SISR 中,由于 LR 图像和 HR 图像共享大部分相同信息,很容易对 LR 和 HR 图像之间的残差图像进行显式建模。残差学习使网络可以更深,并缓解了梯度消失和退化问题 |
83 | 2016(CVPR) | Jiwon Kim | Accurate image super-resolution using very deep convolutional networks | 借助残差学习,Kim 等提出了一种非常深的超分辨率网络,也称为 VDSR |
108 | 2017(CVPRW) | Bee Lim | Enhanced deep residual networks for single image super-resolution | Lim 等指出,在 SISR 任务中,批归一化层消耗更多内存但不会提高模型性能,因此在 SISR 任务中,批归一化层通常被去除 |
Global and Local Residual Learning
全局残差学习是一种从输入到最终重建层的跳跃连接,有助于提高信息从输入到输出的传递,在一定程度上减少了信息的丢失。然而,随着网络的深入,大量的图像细节在经过如此多的层后不可避免地会丢失。因此,提出了局部残差学习,它在每几个堆叠层中执行,而不是从输入到输出。
引用符号 | 年份 | 人物 | 标题 | 描述 |
---|---|---|---|---|
98 | 2018(ECCV) | Juncheng Li | Multi-scale Residual Network for Image Super-Resolution | 在这种方法中,形成了多路径模式,并携带了丰富的图像细节,同时也有助于梯度流。此外,许多新的特征提取模块引入了局部残差学习,以增强强大的学习能力 |
225 | 2018(ECCV) | Yulun Zhang | Image Super-Resolution Using Very Deep Residual Channel Attention Networks | 在这种方法中,形成了多路径模式,并携带了丰富的图像细节,同时也有助于梯度流。此外,许多新的特征提取模块引入了局部残差学习,以增强强大的学习能力 ;结合局部残差学习和全局残差学习在当前也非常流行 |
91 | 2017(CVPR) | Christian Ledig | Photo-realistic single image super-resolution using a generative adversarial network | 结合局部残差学习和全局残差学习在当前也非常流行 |
108 | 2017(CVPRW) | Bee Lim | Enhanced deep residual networks for single image super-resolution | 结合局部残差学习和全局残差学习在当前也非常流行 |
Residual Scaling
在 EDSR 中,Lim 等发现增加特征图(即通道维度)超过一定水平会使训练过程数值不稳定。为解决此问题,他们采用了残差缩放技术,在将残差添加到主路径之前,将其乘以 0 到 1 之间的常数进行缩放
引用符号 | 年份 | 人物 | 标题 | 描述 |
---|---|---|---|---|
156 | 2017(AAAI) | Christian Szegedy | Inception-v4, inception-resnet and the impact of residual connections on learning | 在 EDSR 中,Lim 等发现增加特征图(即通道维度)超过一定水平会使训练过程数值不稳定。为解决此问题,他们采用了残差缩放技术,在将残差添加到主路径之前,将其乘以 0 到 1 之间的常数进行缩放 |
Dense Connection
DenseNet [ 72,CVPR ]中提出了一种密集连接机制,近年来被广泛应用于计算机视觉任务中。与只将层次特征发送到最终重构层的结构不同,密集块中的每一层都接收到前面所有层的特征(图6 )。在大多数层之间创建的短路径可以帮助缓解梯度消失/爆炸的问题,并加强通过层的深层信息流,从而进一步提高重建精度。在密集连接机制的帮助下,网络不同深度之间的信息流可以被充分利用,从而产生更好的重建结果。
引用符号 | 年份 | 人物 | 标题 | 描述 |
---|---|---|---|---|
162 | 2017(ICCV) | Tong Tong | Image super-resolution using dense skip connections | 受密集连接机制的启发,Tong 等提出了 SRDenseNet。SRDenseNet 不仅使用层级密集连接,还使用块级密集连接,每个密集块的输出通过密集连接相连。通过这种方式,将低层特征和高层特征结合起来,并充分利用这些特征进行重建。 |
228 | 2018(CVPR) | Yulun Zhang | Residual dense network for image super-resolution | 在 RDN 中,密集连接与残差学习相结合,形成了残差密集块(RDB),它允许低频特征通过多个跳跃连接绕过,使主分支专注于学习高频信息 |
159 | 2017(CVPR) | Ying Tai | Memnet: A persistent memory network for image restoration | 密集连接也应用于 MemNet 等模型中 |
131 | 2019(IET Image Processing) | Kangfu Mei | Deep residual refining based pseudo-multi-frame network for effective single image super-resolution | RPMNet同上 |
150 | 2019(Multimedia Tools and Applications) | Mingyu Shen | Multipath feedforward network for single image super-resolution | MFNet同上 |
Recursive Learning
为了在不增加模型参数的情况下获得较大的感受野,针对SISR提出了递归学习,在网络中重复应用相同的子模块,并共享相同的参数。换句话说,递归块是递归单元的集合,其中这些递归单元之间的对应结构共享相同的参数。
引用符号 | 年份 | 人物 | 标题 | 描述 |
---|---|---|---|---|
84 | 2016(CVPR) | Jiwon Kim | Deeply-recursive convolutional network for image super-resolution | 为了在不增加模型参数的情况下获得大的感受野,递归学习被提出用于 SISR,例如在 DRCN 中,相同的卷积层被应用 16 次,得到了 41×41 大小的感受野 |
158 | 2017(CVPR) | Ying Tai | Image super-resolution via deep recursive residual network | 然而,递归学习模型中过多的堆叠层仍然会导致梯度消失/爆炸的问题。在 DRRN 中,递归块基于残差学习进行, |
159 | 2017(CVPR) | Ying Tai | Memnet: A persistent memory network for image restoration | 近年来,越来越多的模型在递归单元中引入了残差学习策略,如 MemNet |
3 | 2018(ECCV) | Namhyuk Ahn | Fast, accurate, and lightweight super-resolution with cascading residual network | 近年来,越来越多的模型在递归单元中引入了残差学习策略,如 CARN |
99 | 2019(ICCVW) | Juncheng Li | Lightweight and Accurate Recursive Fractal Network for Image Super-Resolution | 近年来,越来越多的模型在递归单元中引入了残差学习策略,如 SRRFN |
Progressive Learning
渐进式学习是指逐步增加学习任务的难度。对于一些序列预测任务或顺序决策问题,使用渐进式学习来减少训练时间,提高泛化性能。由于SISR是一个病态问题,由于一些不利条件,如大尺度因子、未知退化核和噪声,总是面临很大的学习困难,因此适合利用渐进式学习来简化学习过程,提高重构效率。
在渐进学习的帮助下,复杂问题可以被分解为多个简单任务,从而加速模型收敛并获得更好的重建结果。
引用符号 | 年份 | 人物 | 标题 | 描述 |
---|---|---|---|---|
87 | 2017(CVPR) | Wei-Sheng Lai | Deep laplacian pyramid networks for fast and accurate super-resolution | 在 LapSRN 中,该方法被应用于逐步重建高分辨率图像的子带残差 |
180 | 2018(CVPRW) | Yifan Wang | A fully progressive approach to single-image super-resolution | 在 ProSR 中,金字塔的每一层逐渐融合,以减少对先前训练层的影响,并且逐步添加每个尺度的训练对 |
106 | 2019(CVPR) | Zhen Li | Feedback network for image super-resolution | 在 SRFBN 中,该策略被应用于解决复杂的退化任务,对不同难度的目标进行排序,以便进行渐进式学习。 |
Multi-scale Learning
大量研究工作[ 29、87、157]指出,图像在不同尺度下可能表现出不同的特征,充分利用这些特征可以进一步提高模型性能
引用符号 | 年份 | 人物 | 标题 | 描述 |
---|---|---|---|---|
29 | 2017(CVPR) | François Chollet | Xception: Deep learning with depthwise separable convolutions | 大量研究工作[ 29、87、157]指出,图像在不同尺度下可能表现出不同的特征,充分利用这些特征可以进一步提高模型性能 |
87 | 2017(CVPR) | Wei-Sheng Lai | Deep laplacian pyramid networks for fast and accurate super-resolution | 同上 |
157 | 2016(CVPR) | Christian Szegedy | Rethinking the inception architecture for computer vision | 同上 |
98 | 2018(ECCV) | Juncheng Li | Multi-scale Residual Network for Image Super-Resolution | 受Inception模块的启发[ 29 ],Li 等提出了一种多尺度残差块(MSRB)用于特征提取。MSRB 在一个块中集成了不同的卷积核,以自适应地提取不同尺度的图像特征 |
97 | 2020(IEEE Transactions on Circuits and Systems for Video Technology) | Juncheng Li | MDCN: Multi-scale dense cross network for image super-resolution | Li 等进一步优化结构,提出了更精确的多尺度密集交叉块(MDCB)用于特征提取。MDCB 本质上是一个双路径密集网络,可以有效地检测局部和多尺度特征 |
141 | 2020(Neurocomputing) | Jinghui Qin | Multi-scale feature fusion residual network for Single Image Super-Resolution | Qin 等提出了多尺度特征融合残差网络(MSFFRN),以充分利用图像特征进行 SISR |
17 | 2019(ICASSP) | Chia-Yang Chang | Multi-scale dense network for single-image super-resolution | Chang 等提出了多尺度密集网络(MSDN),将多尺度学习与密集连接相结合 |
15 | 2019(Neurocomputing) | Feilong Cao | Single image super-resolution via multi-scale residual channel attention network | Cao 等开发了一种新的超分辨率方法,称为多尺度残差通道注意力网络(MSRCAN),将通道注意力机制引入到 MSRB 中 |
Attention Mechanism
注意力机制可以被认为是一种工具,可以将可用的资源分配给输入中信息最丰富的部分。为了提高学习过程中的效率,提出了一些工作来引导网络更加关注感兴趣的区域。
引用符号 | 年份 | 人物 | 标题 | 描述 |
---|---|---|---|---|
69 | 2018(CVPR) | Jie Hu | Squeeze-and-excitation networks | Hu 等提出了挤压激励(SE)块,用于在图像分类任务中建模通道间关系 |
174 | 2018(CVPR) | Xiaolong Wang | Non-local neural networks | Wang等人通过结合非局部操作,提出了一种用于视频分类的非局部注意力神经网络 |
Channel Attention
在SISR中,我们主要是想尽可能多地恢复出有价值的高频信息。然而,常见的基于CNN的方法平等地对待通道特征,在处理不同类型的信息时缺乏灵活性。
引用符号 | 年份 | 人物 | 标题 | 描述 |
---|---|---|---|---|
132 | 2018(NeurIPS) | Kangfu Mei | An Effective Single-Image Super-Resolution Model Using Squeeze-and-Excitation Networks | 许多方法在 SISR 模型中引入了 SE 机制 |
225 | 2018(ECCV) | Yulun Zhang | Image Super-Resolution Using Very Deep Residual Channel Attention Networks | Zhang 等提出了一种基于 SE 机制的新模块,名为残差通道注意力块(RCAB)。通过全局平均池化层和 Sigmoid 函数对每个特征通道进行重新缩放,使网络能够专注于更有用的通道,增强判别学习能力 |
33 | 2019(CVPR) | Tao Dai | Second-order attention network for single image super-resolution | 在 SAN 中,探索了特征的二阶统计量,以基于协方差归一化进行注意力机制。大量实验表明,二阶通道注意力可以帮助网络获得更具判别力的表示,从而提高重建精度 |
Non-Local Attention
基于CNN的方法在局部感受野内进行卷积时,忽略了该区域外的上下文信息,而较远区域的特征可能具有较高的相关性,能够提供有效的信息。考虑到这一问题,非局部注意力被提出作为一种滤波算法来计算图像所有像素的加权平均值。通过这种方式,远处的像素也可以对关注位置的响应做出贡献。
Non-Local Attention 是一种用于捕捉图像中长距离依赖关系的机制,旨在解决传统卷积神经网络(CNN)因局部感受野限制而忽略全局上下文信息的问题。其核心思想是通过计算图像中所有像素之间的相关性(无论远近),生成全局注意力权重,从而允许每个位置的响应不仅受局部区域影响,还能整合整个图像中具有高相关性的远距离信息。
- 全局关联性建模:对于输入特征图中的每个位置,计算其与所有其他位置的相似性(如通过点积、高斯函数等),生成一个全局注意力图。
- 加权聚合:根据注意力权重,对所有位置的特征进行加权平均,使当前位置的特征融合全局上下文信息。
- 残差连接:通常将加权后的特征与原始特征相加,保留局部细节的同时增强全局感知能力。
引用符号 | 年份 | 人物 | 标题 | 描述 |
---|---|---|---|---|
113 | 2018(NeurIPS) | Ding Liu | Non-local recurrent network for image restoration | 在 NLRN 中,非局部操作在有限的邻域内进行,以提高鲁棒性 |
227 | 2019(arXiv) | Yulun Zhang | Residual non-local attention networks for image restoration | 在 RNAN 中,提出了非局部注意力块,在其掩码分支中同时使用通道和空间维度的注意力机制,以更好地指导主干分支中的特征提取 |
138 | 2020(ECCV) | Ben Niu | Single image super-resolution via a holistic attention network | 在HAN中提出了一个整体注意力网络,该网络由层注意力模块和通道-空间注意力模块组成,用于建模层、通道和位置之间的整体相互依赖关系。 |
134 | 2020(CVPR) | Yiqun Mei | Image super-resolution with cross-scale non-local attention and exhaustive self-exemplars mining | 在 CSNLN 中,提出了跨尺度非局部注意力模块,用于挖掘同一特征图中 LR 特征和大尺度 HR 块之间的长程依赖关系 |
197 | 2022(AAAI) | Bin Xia | Efficient non-local contrastive attention for image super-resolution | 为了减轻非局部注意力造成的噪声污染,ENLCA 利用高效的非局部衰减和稀疏聚合,通过对比学习专注于有用信息,分离无关特征 |
Feedback Mechanism
反馈机制是指将输出的概念带到先前的状态,允许模型有一个自我修正的过程。值得注意的是,反馈机制不同于递归学习,因为在反馈机制中,模型参数保持自校正且不共享。近年来,反馈机制被广泛应用于许多计算机视觉任务[ 14、16 ]中,这也有利于SR图像重建。具体来说,反馈机制允许网络将高层信息带回前几层,并细化低层信息,从而充分引导LR图像恢复出高质量的SR图像。
引用符号 | 年份 | 人物 | 标题 | 描述 |
---|---|---|---|---|
14 | 2015(ICCV) | Chunshui Cao | Look and think twice: Capturing top-down visual attention with feedback convolutional neural networks | |
16 | 2016(CVPR) | Joao Carreira | Human pose estimation with iterative error feedback | |
62 | 2020(IEEE Transactions on Pattern Analysis and Machine Intelligence) | Muhammad Haris | Deep back-projectinetworks for single image super-resolution | 在 DBPN 中,提供了迭代的上下采样层,以实现每个阶段投影误差的误差反馈机制 |
61 | 2018(CVPR) | Wei Han | Image super-resolution via dual-state recurrent networks | 在 DSRN 中,提出了双状态递归网络,其中递归信号通过延迟反馈在两个状态之间双向交换 |
106 | 2019(CVPR) | Zhen Li | Feedback network for image super-resolution | 在 SRFBN 中,提出了反馈块,每次迭代的输入是上一次的输出作为反馈信息。随后是几个具有密集跳跃连接的投影组,低级表示被细化并成为更强大的高级表示 |
Gating Mechanism
上述残差学习中的跳跃连接往往会使得输出特征的通道维度极高。如果这样的高维通道在后续层中保持不变,那么计算代价将非常大,因此会影响重建效率和性能。直观上,跳跃连接后的输出特征应该被有效拒绝,而不是简单的拼接。
为了解决这个问题,研究人员建议使用门控机制来自适应地提取和学习更有效的信息。大多数情况下,采用1 × 1的卷积层来完成门控机制,可以降低通道维度并留下更多的有效信息。
引用符号 | 年份 | 人物 | 标题 | 描述 |
---|---|---|---|---|
162 | 2017(ICCV) | Tong Tong | Image super-resolution using dense skip connections | 在 SRDenseNet 中,1×1 卷积层在重建模块前作为瓶颈层 |
98 | 2018(ECCV) | Juncheng Li | Multi-scale Residual Network for Image Super-Resolution | 在 MSRN 中,1×1 卷积层在重建模块前作为瓶颈层 |
159 | 2017(CVPR) | Ying Tai | Memnet: A persistent memory network for image restoration | 在 MemNet 中,它是每个内存块末尾的门单元,用于控制长期记忆和短期记忆的权重,且全局和局部区域都使用了门控机制。 |
4 | 2018(CVPRW) | Namhyuk Ahn | Image super-resolution via progressive cascading residual network | 值得注意的是,门不仅能够作为瓶颈放置在网络的末端,而且能够在网络中持续进行。在CARN 中,全局和局部区域都使用了门控机制。 |
97 | 2020(IEEE Transactions on Circuits and Systems for Video Technology) | Juncheng Li | MDCN: Multi-scale dense cross network for image super-resolution | 门控机制也可以结合其他操作,如注意力机制,构建更有效的门模块,实现特征蒸馏。Li 等提出了分层特征蒸馏块(HFDB),将 1×1 卷积层和注意力机制相结合。 |
Efficient Structure
毫无疑问,增加模型的深度是提高模型性能最简单的方法。然而,由于深大模型的计算开销巨大,难以应用于计算能力有限的移动设备。为了解决这个问题,近年来越来越多的轻量高效的SISR方法被提出。
引用符号 | 年份 | 人物 | 标题 | 描述 |
---|---|---|---|---|
3 | 2018(ECCV) | Ahn | Fast, accurate, and lightweight super-resolution with cascading residual network | Ahn 等设计了一种架构(CARN),在残差网络上实现了级联机制,实现了快速、准确和轻量级的超分辨率 |
75 | 2018(CVPR) | Hui | Fast and accurate single image super-resolution via information distillation network | Hui等人利用信息蒸馏策略提出了一种具有轻量级参数和计算复杂度的新型信息蒸馏网络( Information Distillation Network,IDN )。 注:深度学习中的蒸馏网络(Knowledge Distillation)是一种通过知识迁移实现模型压缩和性能提升的技术。其核心思想是让轻量级学生模型(Student)模仿复杂教师模型(Teacher)的行为,从而在保持或接近教师模型性能的同时降低计算和存储成本 |
74 | 2019(ACMMM) | Hui | Lightweight image super-resolution with information multi-distillation network | Hui 等通过构建级联信息多蒸馏块,进一步提出了轻量级信息多蒸馏网络(IMDN) |
114 | 2020(ECCVW) | Liu | Residual feature distillation network for lightweight image super-resolution | Liu 等提出了 RFDN,通过结合更轻量级的特征蒸馏连接操作,提高了单图像超分辨率(SISR)的效率 |
234 | 2022(ECCV) | Zhou | Efficient image super-resolution using vast-receptive-field attention | Zhou 等开发了 VapSR,通过优化注意力机制创建了一个更高效的超分辨率网络。 注:前置模型:[PAN] 使用像素注意力实现高效的图像超分辨率,,ECCV-2020 参考博客:VapSR:基于超大感受野注意力的超分辨率模型 |
155 | 2022(NeurIPS) | Li | Shufflemixer: An efficient convnet for image super-resolution | Li 等引入了 ShuffleMixer,一种研究使用大卷积和通道分割混洗操作的技术,使网络更适合移动设备 参考博客:shuffleMixer图像超分论文阅读 - 知乎 |
105 | 2022(CVPR) | Li | Blueprint separable residual network for efficient image super-resolution | Li 等提出了 Blueprint Separable Residual Network(BSRN),包含两种高效设计:蓝图可分离卷积和更有效的注意力模块 |
101 | 2023(IEEE Transactions on Multimedia) | Li | Cross-receptive Focused Inference Network for lightweight image super-resolution | CFIN:Li等人[ 101 ]提出了一种新颖的交叉感受野引导变换( Cross-receptive Field Guided Transformer,CFGT ),通过使用调制卷积核来选择重建所需的上下文信息。 |
121 | 2022(ACMMM) | Luo | Adjustable Memory-efficient Image Super-resolution via Individual Kernel Sparsity | Luo 等提出了 Individual Kernel Sparsity(IKS)方法,用于内存高效且可调整稀疏性的图像超分辨率,使深度网络能够部署在内存受限的设备上 |
204 | 2023(ACMMM) | Ye | Hardware-friendly Scalable Image Super Resolution with Progressive Structured Sparsity | Ye 等提出了 Hardware-friendly Scalable SR(HSSR),具有渐进式结构稀疏性。该模型可以通过单个可扩展模型覆盖多个不同大小的 SR 模型,无需额外的重新训练或后处理 |
109 | 2023(CVPR) | Lin | Memory-friendly Scalable Super-resolution via Rewinding Lottery Ticket Hypothesis | Lin 等提出了通过通过回溯彩票假设实现内存友好型可扩展超分辨率的Memory-friendly Scalable dynamic SR(MSSR)轻量级模型,可以轻松推广到不同的 SR 模型 |
28 | 2023(CVPR) | Choi | N-gram in swin transformers for efficient lightweight image super-resolution | Choi 等引入了 NGswin,通过拓宽基于窗口的自注意力方法的感受野来提高 SISR 的性能 |
166 | 2023(CVPR) | Wang | Omni aggregation networks for lightweight image super-resolution | Wang 等提出了 Omni - SR,通过在空间和通道维度上复制像素交互来增强轻量级模型的能力 |
102 | 2023(ICCV) | Li | DLGSANet: lightweight dynamic local and global self-attention networks for image super-resolution | Li 等引入了 DLGSANet,通过采用稀疏全局自注意力模块来确定最相关的相似值,简化了 SISR 的效率 |
知识蒸馏模型(distillation network):
参考博客:深度学习中的知识蒸馏技术 - 知乎
整体架构:
图中有两个主要的神经网络模型:“Teacher”(教师模型)和 “Student”(学生模型)。教师模型是一个已经预训练(pre - trained)好的复杂模型,而学生模型是一个待训练(to be trained)的相对简单的模型,二者同时接收训练数据(Training data)。
具体流程:
- 教师模型输出:教师模型对训练数据进行处理,输出 “soft labels”(软标签),也叫预测(predictions)。软标签不仅包含了模型预测的类别,还包含了各个类别之间的概率关系等更丰富的信息,即蒸馏知识(distilled knowledge)。
- 学生模型学习:学生模型接收同样的训练数据,并在学习过程中,不仅参考真实标签(true label,也叫 hard labels 硬标签),还借鉴教师模型输出的软标签中的信息。通过这种方式,学生模型可以更快地学习,并且在一定程度上达到与教师模型相近的性能,同时模型结构更简单,计算成本更低 。
知识蒸馏技术常用于在资源受限的场景下,比如在移动设备或嵌入式设备上部署模型时,通过让轻量级的学生模型学习大型教师模型的知识,来实现高效的模型推理。
Transformer-based Method(✪)
Transformer的核心思想是”自注意力”机制,它可以捕获序列元素之间的长期信息。最近,Transformer [ 164 ] 在NLP任务中取得了辉煌的成绩。例如,预训练的深度学习模型(例如, BERT[35] , GPT [144] )已经显示出优于传统方法的有效性。受此启发,越来越多的研究人员开始探索Transformer在计算机视觉任务中的应用,并在多个任务中取得了突破性的成果。在图像复原中,Transformer常被用来捕捉图像的全局信息,以进一步提高重建图像的质量。
然基于Transformer的方法在性能上有了很大的提升,但是Transform中使用的注意力机制会占用大量的GPU内存。因此,如何进一步降低基于Transformer方法的GPU内存值得进一步探索
引用符号 | 年份 | 人物 | 标题 | 描述 |
---|---|---|---|---|
164 | 2017(NeurIPS) | Vaswani | Attention is all you need | Transformer 的关键思想是 “自注意力” 机制,它可以捕获序列元素之间的长期信息 |
22 | 2021(CVPR) | Chen | Pre-trained image processing transformer | 近年来,越来越多的基于Transformer的模型被提出。例如,Chen等人提出了在大规模数据集上进行预训练的图像处理转换器( Image Processing Transformer,IPT [ 22 ] )。此外,针对不同的图像处理任务,引入了对比学习。因此,预训练的模型经过微调后可以高效地应用于期望的任务。然而,IPT [ 22 ]依赖于大规模数据集,并且具有大量的参数(超过115 . 5M参数),这极大地限制了它的应用场景。 |
117 | 2021(CVPR) | Liu | Swin transformer: Hierarchical vision transformer using shifted windows | 参考博客:【深度学习】详解 Swin Transformer |
107 | 2021(ICCVW) | Liang | SwinIR: Image restoration using swin transformer | Liang等人在Swin Transformer [ 117 ]的基础上提出了用于图像复原的Swin IR [ 107 ]。具体来说,采用Swin Transformer block ( RSTB )进行特征提取,使用DIV2K + Flickr2K进行训练。 |
212 | 2022(CVPR) | Zamir | Restormer: Efficient transformer for high-resolution image restoration | 为了改善SwinIR中不同窗口之间缺乏直接交互的问题。Zamir 等人提出了Restormer,通过在Transformer中嵌入CNN并在多个尺度上进行局部-全局学习来重建高质量的图像。 |
27 | 2022(NeurIPS) | Chen | Cross Aggregation Transformer for Image Restoration | Chen 等提出了 CAT,扩展了注意力区域并跨不同窗口聚合特征 |
24 | 2023(CVPR) | Chen | Activating More Pixels in Image Super-Resolution Transformer | 为了激活Transformer关注的更多像素,Chen 等提出了 HAT,通过使用重叠交叉注意力模块结合预训练策略来增强 Transformer 模型的潜力 |
103 | 2023(CVPR) | Li | Efficient and explicit modelling of image hierarchies for image restoration | Li 等提出 GRL,通过在 Transformer 中集成各种注意力机制,在全局、区域和局部尺度上显式地对图像层次结构进行建模 |
119 | 2021(CVPRW) | Lu | Transformer for Single Image Super-Resolution | 在轻量级SISR模型的应用方面,Lu 等提出了高效超分辨率 Transformer(ESRT),用于快速准确的 SISR,以较少的参数和低计算成本取得了有竞争力的结果 |
222 | 2022(ECCV) | Zhang | Efficient long-range attention network for image super-resolution | Zhang 等提出 ELAN,通过共享自注意力机制降低模型复杂度,加速基于 Transformer 的模型 |
191 | 2022(CVPR) | Wang | Uformer: A general u-shaped transformer for image restoration | Wang 等提出了 Uformer,一种通用且优越的 U 形 Transformer,它可以在捕获局部上下文和多尺度特征的同时,降低高分辨率特征图上的计算复杂度 |
212 | 2022(CVPR) | Zamir | Restormer: Efficient transformer for high-resolution image restoration | Zamir 等提出了一种高效的 Restormer,它可以捕获长距离像素交互,同时适用于大图像 |
101 | 2023(IEEE Transactions on Multimedia) | Li | Cross-receptive Focused Inference Network for lightweight image super-resolution | Li 等提出了 Cross-receptive Focused Inference Network(CFIN),可以结合上下文建模,在有限的计算资源下实现良好的性能 |
239 | 2023(CVPR) | Zhu | Attention Retractable Frequency Fusion Transformer for Image Super Resolution | Zhu 等设计了注意力可伸缩频率融合 Transformer(ARFFT),以增强表示能力并将感受野扩展到整个图像 |
100 | 2023(IEEE Transactions on Circuits and Systems for Video Technology) | Li | Lightweight Image Super-Resolution with Pyramid Clustering Transformer | Li 等提出了一种简洁而强大的金字塔聚类 Transformer 网络(PCTN),用于轻量级 SISR |
26 | 2023(ICCV) | Chen | Dual aggregation transformer for image super-resolution | Chen 等提出了双聚合 Transformer(DAT)用于 SISR,以块间和块内双重方式跨空间和通道维度聚合特征 |
236 | 2023(ICCV) | Zhou | Srformer: Permuted self-attention for single image super-resolution | Zhou 等提出了 SRFormer,通过有效地整合自注意力通道和空间信息,提升了基于窗口的 Transformer 方法的性能 |
218 | 2024(CVPR) | Zhang | Transcending the Limit of Local Window: Advanced Super-Resolution Transformer with Adaptive Token Dictionary | Zhang 等提出了 ATDSR,通过一组自适应令牌字典丰富了超分辨率 Transformer,从而提高了 SISR 的精度 |
120 | 2024(AAAI) | Luo | AdaFormer: Efficient Transformer with Adaptive Token Sparsification for Image Super-resolution | Luo 等提出的自适应令牌稀疏化 Transformer(AdaFormer)通过结合稀疏性策略加速图像的模型推理 |