CVPR NTIRE比赛双冠,网易互娱AI Lab是这样做的

2022-10-11 09:58:00 - 商讯

近日网易互娱AILab获得第七届NTIREHDR比赛的全部两个赛道的冠军。网易互娱AILab一直致力于利用AI提升美术生产效率,助力游戏贴图资源自动升级,目前相关技术已应用于贴图、UI等游戏资源的精度和细节的提升,为多个游戏提供技术支持。本文将详细解读他们的双冠比赛方案。

近日,图像修复领域最具影响力的国际顶级赛事——NewTrendsinImageRestorationandEnhancement(NTIRE)结果出炉,网易互娱AILab包揽了高动态范围成像(HDR)任务全部2项冠军。NTIRE比赛每年举办一次,目前已是第七届,主要聚焦图像修复和增强技术,代表相关领域的趋势和发展,吸引了众多来自工业界、学术界的关注者和参赛者,有着非常大的影响力。今年NTIRE比赛在计算机视觉领域的顶级会议CVPR2022(ComputerVisionandPatternRecognition)上举办。

高动态范围成像(HDR)任务的赛道1和赛道2分别有197个队伍、168个队伍报名参加,吸引了包括腾讯、头条、旷视、蚂蚁、快手在内的工业界队伍,以及清华大学、中科院、中国科学技术大学、爱丁堡大学、帝国理工等国内外高校。网易互娱AILab从众多的强队中脱颖而出,斩获该任务的全部2项冠军。这是网易互娱AILab夺得多项国际冠军后,再次登顶国际AI竞赛,展现了网易互娱AILab在人工智能领域的综合实力。

任务描述

消费级的单传感器相机在拍摄照明情况复杂的场景时,难以用一种曝光参数拍摄出曝光正常的照片。由于成像传感器固有的局限性,譬如在高亮度区域因为过曝让画面呈现白色,从而导致这些区域细节的丢失。针对这个问题的解决方法是采用一个扩展的高动态范围(HDR)记录图片,具体做法是在拍摄时分辨拍摄多张不同曝光参数的低动态范围(LDR)图片,然后通过算法把多张图片融合成一张HDR图片。

此次比赛的目标是探索高效的HDR模型和技术方案,以达到实用化的使用需求。总计两个赛道:(1)保真度赛道:在限定模型计算量(小于200GGMACs)的基础上,尽可能取得更高的保真度,评价指标是PSNR-μ;(2)低复杂度赛道:在超过基线模型指标(PSNR-μ与PSNR)的基础上,尽可能取得更低的计算量和更少的耗时,评价指标是GMACs。

数据集介绍

本次比赛用的数据集包含1500个训练样本、60个验证样本以及201个测试样本,每个样本包括三张LDR图片输入,分别对应短、中、长三种曝光水平,以及一个和中曝光对齐的HDR图片,数据集是由Froehlich等人收集的,他们捕捉了各种各样的具有挑战性场景的HDR视频。之前基于深度学习的HDR模型取得了不错的效果,譬如AHDRNet、ADNet等,但缺点是计算量非常大,以官方提供的基线方法AHDRNet为例,计算量在3000GMACs左右。因此本次比赛的目的是寻求高效的多帧HDR重建方法。

方法概述

由于任务的两个赛道均要求训练高效的HDR模型,网易互娱AILab凭借以往对low-level视觉任务和轻量化网络设计的经验积累,在基线模型的基础上,提出了一个EfficientHDR网络,包括高效的多帧对齐和特征提取模块两个模块,同时优化了模型的训练方法。

(1)在多帧对齐模块,采用PixelUnshuffle操作在增大感受野的同时减少了特征图的大小,大幅减少了后续的计算量。同时,采用深度可分离卷积替代对齐模块中的普通卷积,大幅提高运算效率。

(2)在特征提取模块,采用深度可分离卷积替代普通卷积,SiLU激活函数替代ReLU,设计了一个高效残差特征蒸馏模块(EfficientRFDB)。另外,探索了网络深度与通道数目之间的关系,在限定计算量下层数更深且通道数少的特征提取网络,可以获得更高的评价指标。

(3)在训练方法上,在常规的128x128图片输入L1Loss训练后,采用了256x256更大尺寸输入+L2Loss进行训练调优。最后,使用基于SwinIR搭建的Transformer模型作为Teacher模型,对前述CNN模型进行蒸馏,结合CNN和Transformer各自的优势进一步提升模型效果。

网络结构

网络的整体结构基于官方提供的baseline模型AHDRNet进一步大幅改进和优化,主要可以分成三个部分:多帧对齐模块、特征提取模块和图像重建模块。基于本次比赛的计算量目标考虑,对网络部分做了以下设计:

1.PixelShuffle层:在多帧对齐模块中使用PixelUnshuffle操作(PixelShuffle的逆操作),在不增加计算量的同时增大了感受野。在图像重建模块中使用PixelShuffle替代AHDRNet中的卷积操作,节省计算量。

2.深度可分离卷积:在多帧对齐模块和特征提取模块,采用Depthwise+1x1卷积的组合替换了网络中的绝大多数卷积。

3.特征提取基础模块替换:在特征提取模块采用RFDB+ESA替换AHDRNet中的DRDB,并采用SiLU激活函数替换ReLU。

4.深度vs宽度:在限定计算量下,平衡特征提取模块深度和宽度取得更好的效果。以Track1的约束为标准,所有模型的计算量都在190G~200G之间(即更深的网络意味着更少的通道数)。

整体的网络结构图如图2所示,EfficientRFDB的结构图如图3所示:

CVPR NTIRE比赛双冠,网易互娱AI Lab是这样做的

网络结构图

CVPR NTIRE比赛双冠,网易互娱AI Lab是这样做的

最后提交的Track1和Track2模型均采用了上述的模型结构,区别是使用EfficientRFDB层数和通道数有所不同,对Track1,EfficientRFDB层数和通道数目较多,计算量是198.47GMACs。对Track2,EfficientRFDB层数相近,通道数更少,计算量是74.02GMACs。

训练过程

目前HDR的论文或比赛的主要评价指标是PSNR-μ,指先对输出图片和标签图片分别做色调映射tonemapping操作再计算其PSNR:

其中,

是指tonemapping操作。对图像做了以下处理:

其中,

CVPR NTIRE比赛双冠,网易互娱AI Lab是这样做的

主流的方法是对色调映射后的图片求L1Loss,譬如去年NTIRE比赛的多帧HDR比赛冠军ADNet是使用tonemapped后的图片损失函数,即:

该研究训练过程第一步同上使用L1Loss,并在此基础上加了后续三个finetune的过程,按顺序分别是:

1.L2Lossfinetune:为了获得更高的评价指标,在微调阶段该研究采用了和PSNR计算一致的L2Loss代替L1Loss:

2.大尺寸图片+L2Lossfinetune:由于最后用了深层的网络设计,网络具有更大的感受野,采用256x256替代128x128的大尺寸图片进行微调可以让模型取得更好的效果。

3.知识蒸馏+大尺寸+L2Lossfinetune:使用基于Transformer的SwinIR中的RSTB代替EfficientRFDB搭建Teacher网络,此阶段损失函数如下:

CVPR NTIRE比赛双冠,网易互娱AI Lab是这样做的

其中,TS表示TeacherSurpervision,DS表示DataSupervision,最后在实验中

实验结果

赛道1中,网易互娱AILab(ALONG)提出的方法在PSNR-μ和PSNR上均是第一。如表1所示,主要评价指标PSNR-μ比第二名高出了0.172,而第二到第四的PSNR-μ差距仅为0.089,相比第五名之后的队伍更是拉开了0.45以上的差距。

赛道2中,网易互娱AILab(ALONG)提出的方法取得了最低的计算量(GMACs)和最少的参数量(Param)。如表2所示,在超过基线方法PSNR和PSNR-μ的基础上,减少了约40倍的计算量。相比第二名和第三名有较大领先,仅使用了约一半的计算量。

CVPR NTIRE比赛双冠,网易互娱AI Lab是这样做的

表1:赛道1(保真度赛道)结果排名

CVPR NTIRE比赛双冠,网易互娱AI Lab是这样做的

(来源:新视线)

今日热搜