[SIGGRAPH AISA 2023] FuseSR: Super Resolution for Real-time Rendering through Efficient Multi-resolution Fusion
组里面 Jingsen 学长的工作,主要思路是通过Gbuffer的辅助信息训练神经网络让其更好地进行super resolution。其中一步是把最后的结果拆成两部分,一部分是BRDF,另一部分是光照相关项。但实际上Gbuffer由于信息很少而且只能做到这么多,能猜测道的光照相关项实际上应该是输入方向无关的。总体上讲我看了论文的大概,就是说还是不太清楚为什么这么设计,还是说这就是“just work”。
我们的方法实现了高保真的4 × 4超分辨率图像,在性能和质量上明显优于现有方法。我们的方法甚至在极具挑战性的8 × 8超分辨率任务(现有的方法基本上都失败了)(右下)中取得了成功,由于我们的BRDF解调和多分辨率融合设计来保留高频细节。放大查看细节
ABSTRACTION
随着对高分辨率、高刷新率和高真实感需求的增加,实时渲染的工作量急剧增加,使大多数显卡不堪重负。为了缓解这个问题,一个最流行的解决方案是以低分辨率渲染图像以减少渲染开销,然后设法准确地将低分辨率渲染图像上采样到目标分辨率,即超分辨率技术。大多数现有方法侧重于利用低分辨率输入的信息,例如历史框架。在这些LR输入中缺少高频细节使得他们很难在高分辨率预测中恢复精细细节。在本文中,我们提出了一种高效的超分辨率方法,该方法利用低成本的高分辨率辅助g缓冲作为额外输入来预测高质量的上采样重建。以LR图像和HR g缓冲作为输入,网络需要在多分辨率水平上对齐和融合特征。
我们引入了一个高效的H-Net架构来解决这个问题,并在不明显的质量下降的情况下显著降低了渲染开销。实验表明,我们的方法能够在4K分辨率下产生时间一致的4 × 4重建,甚至具有挑战性的8 × 8上采样情况,具有实时性能,与现有作品相比,质量大大提高,性能显著提升。项目页面:https://isaac-paradox.github.io/FuseSR/
1 INTRODUCTION
……
最广泛采用和成功的方法是超分辨率(SR)方法,包括DLSS [NVIDIA 2018], FSR [AMD 2021], XeSS [Intel 2022]等。用户可以降低渲染图像的分辨率以减少渲染时间,并对低分辨率(LR)渲染图像进行上采样以获得最终的高分辨率(HR)图像。然而,他们主要考虑小于2 × 2的上采样因子,这限制了更高的性能改进。NSRR [Xiao et al . 2020]追求的是一项更有前途的任务,即利用历史帧实时生成高质量的4 × 4上采样重建,但它在恢复准确的高频纹理细节方面存在困难,并且无法在高于1080p的分辨率下支持实时体验。
NSRR的结果表明,高分辨率SR是一项艰巨的挑战。一方面,许多高保真细节甚至在历史框架中也丢失了。理论上,4×4 SR重建至少需要16帧历史帧才能完全覆盖HR目标的每个像素,如此长的时间窗口使得历史重用方案在动态场景中基本不可行的。一种直观的解决方案是利用包含全分辨率信息的HR - g缓冲区,其渲染成本可以忽略不计,仅次线性增加。另一方面,网络性能也是实时SR的关键问题,神经网络的推理时间随着输入分辨率的增加而迅速增加。因此,提高特征分辨率和降低网络带宽的需求是一对难以解决的矛盾,减缓了高分辨率SR的发展。
在本文中,我们提出了一种高效的实时超分辨率技术FuseSR,它能够提供高保真的4 × 4甚至8 × 8上采样重建,与现有作品相比,质量和性能都有显著提高。除了使用历史信息外,我们还利用HR G-buffer为HR目标提供逐像素线索。我们进一步将遮阳结果分解为预集成的BRDF和解调的辐照度分量,并训练网络来预测HR辐照度,从而更好地平衡质量和效率。最重要的是,我们提出了H-Net架构来解决HR特征和LR带宽之间的矛盾。在H-Net中,我们结合了像素变换和解变换[Gharbi et al . 2016;Shi等人(2016)将HR特征与LR输入进行无损对齐,并将特征融合到LR网络骨干中,同时保留高保真的HR细节。我们的贡献可以总结如下:
- 我们的方法成功地利用高分辨率g缓冲来解决实时超分辨率问题,在时间和质量上都明显优于现有方法。我们是第一个在具有挑战性的8 × 8超分辨率任务中产生高保真结果的方法。
- 我们提出了H-Net,一种高效的网络设计,可以与低分辨率网络骨干网进行无损的多分辨率特征对齐和融合。我们在网络设计中创新性地采用像素变换和解变换对,将多分辨率特征对齐融合到同一屏幕空间中。
- 我们引入了预集成BRDF解调来解决超分辨率问题,提高了细节保存并减少了g缓冲的冗余。
@SankHyan24: 这里的H-Net因该就是对场景特征的学习部分了。之所以叫H-net,是因为像“|-|”,前部分和后部分的大小对应图片的大小,很大,所以是H的两个|,中间的-是计算的主要部分,主要学习Gbuffer和渲染结果之间的关联。他这么做是想减少这步需要的时间。要想继续减少时间,一个思路就是在此之上继续缩小这个H中的-的大小,让他更细更小。