超分辨率-综述
参考文献:深度学习的图像超分辨率重建技术综述
关于分辨率(resolution)
1.分辨率的概念
- 分辨率描述了图像或视频中像素的数量和密度,以及显示设备能够呈现的细节水平
- 具体可以细分为显示分辨率、图像分辨率
- 显示分辨率
- 在显示器领域,分辨率通常指屏幕水平和垂直方向有多少像素点。分辨率大小使用乘积表示,如1920×1080。当屏幕分辨率高时,屏幕上显示的像素多,单个像素尺寸比较小。2k:19201080;2.5k:2560\1440;4k:3840 x 2160
- 图像分辨率
- 图像分辨率指的是图像中存储的信息量,通常为单位英寸中包含的像素点数。随着图像技术的发展,理论上图像分辨率会越来越大。
- Pixels Per Inch(PPI)也叫像素密度单位,所表示的是每英寸所拥有的像素数量。因此PPI数值越高,即代表显示屏能够以越高的密度显示图像。当然,显示的密度越高,拟真度就越高
- 显示分辨率
2.疑问解答
- 问题一:在基于深度学习的超分辨率重建图像方法中,分为两个模块,上采样和非线性映射学习模块;上采样是将图片进行放大,这个过程提升了图像的分辨率吗?(按我个人的理解是上采样是将图片的尺寸进行放大,但是并没有将先前模糊的图片变清晰,而非线性学习映射才是将低分辨率图片变为高分辨率图片的过程)
答:在基于深度学习的超分辨率重建图像方法中,确实包含上采样和非线性映射学习两个关键模块。针对您提出的问题,我们可以从以下几个方面进行详细分析:
1.上采样模块的作用
上采样模块的主要作用是将图像的尺寸进行放大,这个过程确实提升了图像的分辨率。分辨率是指图像中像素点的数量,通过上采样,图像的像素点数量增加,从而在物理尺寸上实现了图像的放大。然而,仅仅通过上采样并不能直接改善图像的质量,特别是当原始图像是低分辨率或模糊的时。这是因为上采样本身并不增加图像中的新信息,只是通过插值等方法在现有像素之间生成新的像素值。
2.非线性映射学习模块的作用
非线性映射学习模块则是超分辨率重建中的核心部分。它负责学习低分辨率(LR)图像到高分辨率(HR)图像之间的映射关系。在训练过程中,该模块通过大量的LR-HR图像对进行学习,使得模型能够掌握从LR图像中提取有效特征并重建出HR图像的能力。这个过程中,模型会学习到如何填补LR图像中缺失的细节信息,从而生成更加清晰、高分辨率的图像。
3.两者结合的作用
在超分辨率重建中,上采样模块和非线性映射学习模块是相辅相成的。上采样模块为非线性映射学习模块提供了必要的图像尺寸放大功能,使得模型能够在更大的图像尺寸上进行特征提取和重建。而非线性映射学习模块则通过其强大的学习能力,弥补了上采样过程中可能产生的模糊和失真问题,最终生成出高质量的高分辨率图像。
4.对问题的回答
- 上采样是否提升了图像的分辨率? 是的,上采样通过增加图像的像素点数量,实现了图像尺寸的放大和分辨率的提升。
- 上采样是否将先前模糊的图片变清晰? 单独来看,上采样并不能直接使模糊的图片变清晰。它只是改变了图像的物理尺寸和分辨率,而没有增加图像中的新信息或改善图像的质量。要使模糊的图片变清晰,需要依赖非线性映射学习模块等后续处理步骤。
- 非线性学习映射是否将低分辨率图片变为高分辨率图片? 是的,非线性学习映射模块通过其强大的学习能力,能够从低分辨率图像中提取有效特征并重建出高分辨率图像。这个过程中,模型会填补低分辨率图像中缺失的细节信息,从而生成出更加清晰、高分辨率的图像。
综上所述,在基于深度学习的超分辨率重建图像方法中,上采样模块和非线性映射学习模块各自承担着重要的角色,并通过协同工作实现了从低分辨率图像到高分辨率图像的转换
- 问题二:上采样提升了分辨率,不是将图片的分辨率提高了吗,为什么图片还是模糊的呢,不是说分辨率越高的图片越清晰吗?
您提出的问题非常深入,涉及到了图像处理中分辨率、清晰度以及上采样过程之间的复杂关系。首先,我们来澄清几个概念,并解释为什么上采样虽然提升了图像的分辨率,但并不一定能使图片变得清晰。
1.分辨率与清晰度的关系
分辨率确实是衡量图像质量的一个重要指标,它指的是图像中像素的数量。在数字图像中,分辨率越高,意味着图像包含的像素点越多,从而在物理尺寸上能够展现更多的细节。然而,清晰度(sharpness)则更多地与图像的细节表现力、边缘的锐利程度以及图像的噪声水平等因素有关。
2.上采样的作用与限制
上采样是一个将图像尺寸放大的过程,它通过插值算法在原有像素之间生成新的像素值,从而增加图像的像素数量,提升分辨率。但是,这个过程并不会增加图像中的实际信息内容。换句话说,上采样无法创造出原本不存在的图像细节。
3.为什么上采样后的图片可能仍然模糊?
- 信息缺失:如果原始图像本身就是低分辨率或模糊的,那么它包含的细节信息就有限。上采样虽然能在物理尺寸上放大图像,但无法填补这些缺失的细节。
- 插值算法的影响:上采样过程中使用的插值算法会影响新生成像素的质量。一些简单的插值算法(如最近邻插值)可能会产生明显的锯齿效应或模糊效果。而更复杂的算法(如双线性插值、双三次插值等)虽然能在一定程度上改善这个问题,但仍然无法完全恢复原始图像中不存在的细节。
- 噪声放大:在上采样过程中,图像中的噪声也可能会被放大。如果原始图像就包含较多的噪声,那么上采样后的图像可能会显得更加模糊或颗粒感更强。
结论
因此,虽然上采样能够提升图像的分辨率,但并不一定能使图片变得清晰。要获得清晰的图像,还需要从源头上保证图像的质量,并在后续处理过程中采用合适的算法和技术来尽可能地保留和恢复图像的细节信息。在某些情况下,可能需要结合超分辨率重建等高级技术来进一步提升图像的质量。
一.单图像超分辨率重建方法(SISR)
1.发展情况
- SISR 方法输入一张低分辨率图像,利用深度神经网络学习 LR-HR 图像对之间的映射关系,最终将 LR 图像重建为一张高分辨率图像。
- 2014提出SRCNN模型:提出峰值信噪比(peak signal-tonoise ratio,PSNR)和结构相似度(structure similarity index measure,SSIM)指标。这个阶段的 SISR 方法的改进方向主要以增加神经网络的深度,从而提高PSNR和SSIM指标为导向。
- 2017年提出SRGNN模型:首次提出要提高图像的感官质量,引入了感知损失函数。随后提出的模型开始以优化重建图像纹理细节为目标。
- 发展历程
2.超分框架(按照上采样模块位置区分)
- 非线性映射学习模块
- 负责完成低分辨率图像到高分辨率图像的映射,这个过程中利用损失函数来进行引导和监督学习的进程
- 上采样模块
- 实现图片的放大
①前端上采样超分框架
先将图片放大,再进行低分辨率到高分辨率的映射。
前端上采样可以避免在低维空间上进行低维到高维的映射学习,降低了学习难度,是一 种简单易行的方法。
- 但是同时噪声和模糊等也被增强,并且在高维空间进行卷积运算将会增加模型计算量,消耗更多的计算资源
②后端上采样超分框架
先进行低分辨率到高分辨率的映射,再将图片放大。
该框架下的大部分卷积计算在低维空间进行,最后再利用端到端可学习的上采样层,如转置卷积和亚像素卷积 ,进行上采样放大。
- 进一步释放了卷积的计算能力, 降低模型复杂度。
③渐进式上采样超分框架
- 先进行低分辨率到高分辨的映射,之后逐级进行图片放大,中途生成的图像继续输入后续模块(低分辨率到高分辨率的映射),直到达到目标分辨率。
常用方法是采用卷积级联或者 Laplace 金字塔的方式,再结合多级监督等学习策略
④升降采样迭代式超分框架
- 交替使用上、下采样,结合得到的所有特征图来完成低分辨率图像的重建
3.上采样方法
①基于插值法的上采样方法
- 利用一定的数学策略,从相关点中计算出待扩展点的像素值
- 但是由于插值函数本身的连续性,导致了重建图像较为平滑而模糊。但图像纹理处常常是各种突变,这与插值函数的连续性互为矛盾
②端到端可学习的上采样方法
(1)转置卷积
设卷积核大小为k*k,输入为方形矩阵(将转置卷积过程转变为普通卷积过程)
- 对输入进行四边补零,单边补零的数量为k-1
- 将卷积核旋转180°,在新的输入上进行直接卷积
图示:
(2)亚像素卷积
- 亚像素的概念:在相机成像的过程中,获得的图像数据是将图像进行了离散化的处理,由于感光元件本身的能力限制,到成像面上每个像素只代表附近的颜色。例如两个感官原件上的像素之间有4.5um的间距,宏观上它们是连在一起的,微观上它们之间还有无数微小的东西存在,这些存在于两个实际物理像素之间的像素,就被称为“亚像素”。
- 利用卷积计算对图像进行特征提取,再对不同通道间的特征图进行重组,从而得到更高分辨率的特征图
- 图示:
4.非线性映射学习模块
- 非线性映射学习模块在训练过程中利用 “LR-HR 图像对“进行学习,使模型获得从低分辨率图像到高分辨率图像的映射能力
- 一共分为四种模型
①基于CNN的超分模型
(1)SRCNN(2014年Dong等人提出,前端上采样框架 )
- 先将图片下采样预处理得到低分辨率图像
- 再利用双三次插值法将图片放大到目标分辨率(基于插值的上采样方法)
- 再用卷积核大小分别为 9×9、1×1、5×5的三个卷积层,分别进行特征提取,拟合 LR-HR 图像对之间的非线性映射以及将网络模型的输出结果进行重建,得到最后的高分辨率图像
- 图示:
(2)FSRCNN (2016年由Dong改进,后端上采样框架)
- 改进点:
- 直接用LR图像作为输入,降低特征维度
- 使用比SRCNN 更小的滤波器,网络结构加深
- 采用后端上采样超分框架,在网络最后加入反卷积层来将图像放大至目标分辨率。
- FSRCNN采用更小的卷积核、更深的网络层数,训练速度提高,重建的HR图像质量效果进一步得到提高
- 图示:
②基于GNN的超分模型
- 解决问题:基于CNN的超分辨率模型,尽管重建出来的高分辨率图像的 PSNR/SSIM 指标越来越高,但是生成的图像过于平滑,高频纹理信息丢失,重建图像缺乏人眼感官上的照片真实感, 并且在工业界的实际使用效果依然很差
(1) SRGNN (2017Ledig等人提出)
- 最早开始将超分研究的注意力从 PSNR/SSIM 指标上转移到图像感知质量上。
- 利用 VGG 网络提取出来的特征计算损失函数作为内容损失,内容损失加上对抗网络本身的对抗损失,共同构成了感知损失函数
③基于深度强化学习的超分模型
- 强化学习概念:
- 强化学习在现有数据的基础上,循环利用学习得到的新的数据,不断提高模型的学习能力。 该方法已经被证明在不监督每一步的情况下对序列模型进行全局优化的有效性
④基于Transformer的超分模型
- 2020 年 Yang 等人最早将 Transformer 引入图像超分领域,提出了基于 Transformer 网络结构的 TTSR 超分算法。
- 为了充分利用参考图像的纹理信息,Yang 等人在TTSR中提出了特征融合机制,利用上采样方式实现不同层级间的特征互相融合。
5.损失函数
- 损失函数在非线性映射学习模块的学习过程中,指导着超分模型向着预期的方向学习和前进,通过损失函数的变化可以知道当前模型的训练与预期之间的差距,同时调控模型学习方向。
①像素损失函数
- 表示重建图像与目标图像之间的像素损失
(1)MSE损失(均方误差)函数
- 其中,n 表示像素点个数,yi 表示预测值,表示目标值。
- 缺点(基于平方项的影响)
- MSE 损失函数(L2 loss)中,在误差已经很小的情况下,MSE损失函数仍然会促使模型继续优化这些误差,即使这样做带来的收益可能微乎其微。
- 当误差大于1时,MSE会将误差进一步放大,因此它对数据中的异常值(即那些与大多数数据点显著不同的点)非常敏感。模型可能会为了适应这些异常值而做出较大的调整,这可能导致模型在整体数据上的泛化能力下降。这就使得最终重建图像更为平滑、模糊,缺乏高频的纹理细节。
- 在图像处理或重建任务中,如果使用MSE作为损失函数,模型可能会为了最小化MSE而倾向于生成平滑、模糊的图像。这是因为高频纹理细节(如边缘、锐角等)在像素级别上通常与周围像素有较大的差异,这些差异在MSE损失函数下会被视为大误差。为了减小这些误差,模型可能会倾向于将这些高频细节平滑化,从而导致重建图像缺乏细节和锐度。
(2)L1损失函数(平均绝对误差)
- 在实践中,L1 损失函数的实际效果要比 MSE更好,更能提高模型性能,得到更高的指标
②内容损失
相对像素损失来说,内容损失不再要求像素层面上的精确,而是追求人眼感官层面的相似。为了提升感知质量,利用神经网络中生成的图像特征与真实图像特征之间的距离来进行计算
- 表示第 L 层特征图对应的像素点个数,和分别表示重建图像和原始高分辨率图像在第 I 层中第 i 个最大池化层之前经过第 j 次卷积得到的特征图。
③对抗损失
④感知损失
- 内容损失和对抗损失的加权和
二.基于参考的图像超分辨率重建(略读)
- 定义
- RefSR 方法借助引入的参考图像,将相似度最高的参考图像中的信息转移到低分辨率图像中并进行两者的信息融合,从而重建出纹理细节更清晰的高分辨率图像。
- 步骤:
- 第一步将参考图像中有用的信息与输入图像中的信息进行匹配,能准确对应两者的信息是重建令人满意的细节纹理的关键。
- 第二步将匹配到的信息进行提取,并与输入图像进行融合,进而重建出满意的图像。
- 决定性因素就是 LR 图像与高分辨率参考图像之间的匹配和融合的准确性
1.像素对齐
- 先从 LR 图像中检测稀疏的特征,再在参考图像中进行特征匹配, 最后基于这些匹配特征将原LR图像映射到另一个图像中,从而实现图像对齐
Landmark 通过全局配准来将参考图像与上采样后的LR图像进行对齐,从而识别出这些图像中各自对应的区域, 减少失配或错配的情况
2018年的CrossNet模型是一种端到端的完全卷积的深度神经网络,通过预测光流量来进行跨尺度变换
- 2018年Zhao等人提出了高频补偿超分辨率(highfrequency compensation super-resolution,HCSR)模型,需要计算从参考图像到所有LR光场图像的多个视图差,然后利用混合策略对精化的视差图进行融合,最后得到高质量的超分图像
- 2020年Shim 等人在堆叠的可变性卷积的基础上提出了可实现端到端的新颖高效的参考图像特征提取模块——相似性搜索与提取网络(similairity search and extraction network,SSEN),可以从参考图像中提取对齐的相关特征,并且可以插入到任何现有的超分辨率网络中。
2.Patch匹配
- 2017 年 Zheng 等人利用 Patch 匹配的方法,提出了 SS-Net 模型。具体来说,SS-Net 首先设计了一个跨尺度对应网络来表示参考图像和低分辨率图像之间的跨尺度 Patch匹配。在多个尺度上对低分辨率图像的Patch与参考图像的Patch进行融合,最终合成HR图像并输出。
2019 年 Zheng 等人提出了端到端可学习的 SRNTT(superresolution by neural texture transfer)网络模型,SRNTT预先训练的 VGG 中提取的参考特征与 LR 特征在自然空间中进行多级匹配,促进了多尺度神经传输。
2020年Yang等人[16] 进一步将Transformer架构引入RefSR任务,提出了TTSR 模型
2021年Zhou等人从解决实际多尺度相机系统中的 RefSR问题出发,受到多平面图像(multiplane image,MPI)表示的启发,提出了一个 端到端可学习的 RefSR 网络模型——Cross-MPI 模型
- 2021年Lu等人[56] 提出了 MASA (matching acceleration and spatial adaptation)模型
- 2021年Jiang 等人[57] 提出了 C2 -Matching 模型
三.超分数据集和图像质量评估
1.常用数据集
2.图像质量评估
①峰值信噪比(PSNR)
其中,MSE 为均方误差,MAX指表示图像点颜色的最大数值,图像的最大像素值由二进制位数决定,如8位二进制表示的图像的最大像素值就是 255。
②结构相似度(SSIM)
- SSIM 从人类视觉系统中 获得灵感,将图像的组成分为亮度、对比度以及结构三部分,并用均值作为亮度的估计,标准差作为对比度估计,协方差作为结构相似程度估计
③平均意见评分(mean opinion score,MOS)
- 一种常用的主观图像质量评估的方法,通过邀请接受过训练的普通人以及未接受过训练的普通人来对重建的图像进行评分,并且两者人数大致均衡,通过给重建图像打分,再对最后的得分进行平均