CVPR NTIRE比赛双冠，网易互娱AI Lab是这样做的

2022-10-11 09:58:00 - 商讯

近日网易互娱AILab获得第七届NTIREHDR比赛的全部两个赛道的冠军。网易互娱AILab一直致力于利用AI提升美术生产效率，助力游戏贴图资源自动升级，目前相关技术已应用于贴图、UI等游戏资源的精度和细节的提升，为多个游戏提供技术支持。本文将详细解读他们的双冠比赛方案。

近日，图像修复领域最具影响力的国际顶级赛事——NewTrendsinImageRestorationandEnhancement(NTIRE)结果出炉，网易互娱AILab包揽了高动态范围成像(HDR)任务全部2项冠军。NTIRE比赛每年举办一次，目前已是第七届，主要聚焦图像修复和增强技术，代表相关领域的趋势和发展，吸引了众多来自工业界、学术界的关注者和参赛者，有着非常大的影响力。今年NTIRE比赛在计算机视觉领域的顶级会议CVPR2022(ComputerVisionandPatternRecognition)上举办。

高动态范围成像(HDR)任务的赛道1和赛道2分别有197个队伍、168个队伍报名参加，吸引了包括腾讯、头条、旷视、蚂蚁、快手在内的工业界队伍，以及清华大学、中科院、中国科学技术大学、爱丁堡大学、帝国理工等国内外高校。网易互娱AILab从众多的强队中脱颖而出，斩获该任务的全部2项冠军。这是网易互娱AILab夺得多项国际冠军后，再次登顶国际AI竞赛，展现了网易互娱AILab在人工智能领域的综合实力。

任务描述

消费级的单传感器相机在拍摄照明情况复杂的场景时，难以用一种曝光参数拍摄出曝光正常的照片。由于成像传感器固有的局限性，譬如在高亮度区域因为过曝让画面呈现白色，从而导致这些区域细节的丢失。针对这个问题的解决方法是采用一个扩展的高动态范围(HDR)记录图片，具体做法是在拍摄时分辨拍摄多张不同曝光参数的低动态范围(LDR)图片，然后通过算法把多张图片融合成一张HDR图片。

此次比赛的目标是探索高效的HDR模型和技术方案，以达到实用化的使用需求。总计两个赛道：(1)保真度赛道：在限定模型计算量(小于200GGMACs)的基础上，尽可能取得更高的保真度，评价指标是PSNR-μ;(2)低复杂度赛道：在超过基线模型指标(PSNR-μ与PSNR)的基础上，尽可能取得更低的计算量和更少的耗时，评价指标是GMACs。

数据集介绍

本次比赛用的数据集包含1500个训练样本、60个验证样本以及201个测试样本，每个样本包括三张LDR图片输入，分别对应短、中、长三种曝光水平，以及一个和中曝光对齐的HDR图片，数据集是由Froehlich等人收集的，他们捕捉了各种各样的具有挑战性场景的HDR视频。之前基于深度学习的HDR模型取得了不错的效果，譬如AHDRNet、ADNet等，但缺点是计算量非常大，以官方提供的基线方法AHDRNet为例，计算量在3000GMACs左右。因此本次比赛的目的是寻求高效的多帧HDR重建方法。

方法概述

由于任务的两个赛道均要求训练高效的HDR模型，网易互娱AILab凭借以往对low-level视觉任务和轻量化网络设计的经验积累，在基线模型的基础上，提出了一个EfficientHDR网络，包括高效的多帧对齐和特征提取模块两个模块，同时优化了模型的训练方法。

(1)在多帧对齐模块，采用PixelUnshuffle操作在增大感受野的同时减少了特征图的大小，大幅减少了后续的计算量。同时，采用深度可分离卷积替代对齐模块中的普通卷积，大幅提高运算效率。

(2)在特征提取模块，采用深度可分离卷积替代普通卷积，SiLU激活函数替代ReLU，设计了一个高效残差特征蒸馏模块(EfficientRFDB)。另外，探索了网络深度与通道数目之间的关系，在限定计算量下层数更深且通道数少的特征提取网络，可以获得更高的评价指标。

(3)在训练方法上，在常规的128x128图片输入L1Loss训练后，采用了256x256更大尺寸输入+L2Loss进行训练调优。最后，使用基于SwinIR搭建的Transformer模型作为Teacher模型，对前述CNN模型进行蒸馏，结合CNN和Transformer各自的优势进一步提升模型效果。

网络结构

网络的整体结构基于官方提供的baseline模型AHDRNet进一步大幅改进和优化，主要可以分成三个部分：多帧对齐模块、特征提取模块和图像重建模块。基于本次比赛的计算量目标考虑，对网络部分做了以下设计：

1.PixelShuffle层：在多帧对齐模块中使用PixelUnshuffle操作(PixelShuffle的逆操作)，在不增加计算量的同时增大了感受野。在图像重建模块中使用PixelShuffle替代AHDRNet中的卷积操作，节省计算量。

2.深度可分离卷积：在多帧对齐模块和特征提取模块，采用Depthwise+1x1卷积的组合替换了网络中的绝大多数卷积。

3.特征提取基础模块替换：在特征提取模块采用RFDB+ESA替换AHDRNet中的DRDB，并采用SiLU激活函数替换ReLU。

4.深度vs宽度：在限定计算量下，平衡特征提取模块深度和宽度取得更好的效果。以Track1的约束为标准，所有模型的计算量都在190G~200G之间(即更深的网络意味着更少的通道数)。

整体的网络结构图如图2所示，EfficientRFDB的结构图如图3所示：

CVPR NTIRE比赛双冠，网易互娱AI Lab是这样做的

网络结构图

CVPR NTIRE比赛双冠，网易互娱AI Lab是这样做的

最后提交的Track1和Track2模型均采用了上述的模型结构，区别是使用EfficientRFDB层数和通道数有所不同，对Track1，EfficientRFDB层数和通道数目较多，计算量是198.47GMACs。对Track2，EfficientRFDB层数相近，通道数更少，计算量是74.02GMACs。

训练过程

目前HDR的论文或比赛的主要评价指标是PSNR-μ，指先对输出图片和标签图片分别做色调映射tonemapping操作再计算其PSNR：

其中，

是指tonemapping操作。对图像做了以下处理：

其中，

CVPR NTIRE比赛双冠，网易互娱AI Lab是这样做的