• 工作总结
  • 工作计划
  • 心得体会
  • 述职报告
  • 事迹材料
  • 申请书
  • 作文大全
  • 读后感
  • 调查报告
  • 励志歌曲
  • 请假条
  • 创先争优
  • 毕业实习
  • 财神节
  • 高中主题
  • 小学一年
  • 名人名言
  • 财务工作
  • 小说/有
  • 承揽合同
  • 寒假计划
  • 外贸信函
  • 励志电影
  • 个人写作
  • 其它相关
  • 生活常识
  • 安全稳定
  • 心情短语
  • 爱情短信
  • 工会工作
  • 小学五年
  • 金融类工
  • 搞笑短信
  • 医务工作
  • 党团工作
  • 党校学习
  • 学习体会
  • 下半年工
  • 买卖合同
  • qq空间
  • 食品广告
  • 办公室工
  • 保险合同
  • 儿童英语
  • 软件下载
  • 广告合同
  • 服装广告
  • 学生会工
  • 文明礼仪
  • 农村工作
  • 人大政协
  • 创意广告
  • 您现在的位置:六七范文网 > 其它相关 > 正文

    轻量级注意力约束对齐网络的视频超分重建

    来源:六七范文网 时间:2022-12-17 13:40:04 点击:

    靳雨桐,宋慧慧,刘青山

    南京信息工程大学,江苏省大气环境与装备技术协同创新中心,江苏省大数据分析技术重点实验室,南京 210044

    视频超分辨率(video super-resolution,VSR)重建的目标是从LR(low-resolution)帧(参考帧)和其对应的多个相邻帧中恢复出逼真的HR(high-resolution)帧。视频超分重建应用十分广泛,例如视频监控、高清电视和视频后期制作等。Dai等人(2017)提出了可变形的卷积网络(deformable convolutional networks,DCNs),突破了卷积神经网络(convolutional neural networks,CNNs)中感受野采用固定几何结构的局限性。DCNs能够从目标任务中学习偏移量来增加空间采样位置,从而学习出自适应的感受野。随后,Zhu等人(2018)提出了DCNs的进阶版本DCNs v2,通过增强建模能力和更强的训练,提高其专注于相关图像区域的能力。随着DCNs的发展,其在视频超分重建领域取得重大突破。例如,Tian等人(2020)提出的TDAN(temporally-deformable alignment network)首次将DCNs应用到视频超分领域。TDAN网络无需计算光流,能够在特征层面自适应地对齐相邻帧。

    传统的VSR算法通过考虑相邻LR帧之间的亚像素运动,将多个LR帧作为输入得到HR帧。Liu和Sun(2014)引入了贝叶斯方法,在重建原始的高分辨率帧的同时,估计底层运动、模糊核和噪声。Farsiu等人(2004)提出了一种基于双边先验知识来处理不同的数据和噪声模型。但是,由于这些方法是将输入的视频帧当做单幅图像进行重建,并没有考虑帧与帧之间的时序关系,极有可能无法处理连续帧。考虑到VSR的特性,对LR参考帧和相邻LR帧之间的时序关系进行建模对于提高重建性能至关重要。Tao等人(2017)提出了亚像素运动补偿(sub-pixel motion compensation,SPMC)层,并分析了该层在视频超分中的实用性,通过有效融合SPMC层与多帧信息来重建图像细节。Haris等人(2019)用反向投影网络(recurrent back-projection network,RBPN)从连续视频帧中整合时空上下文信息来精准对齐LR参考帧和相邻的LR帧。Wang等人(2019a)设计了一个带有可变形卷积的视频恢复框架(video restoration framework with enhanced deformable convolutions,EDVR),在特征级别上自适应地对齐参考帧和每个相邻帧,设计一个金字塔、级联和可变形(pyramid, cascading and deformable,PCD)对齐模块处理大尺度运动。以上方法尽管在重建性能方面获得大幅提升,但是还存在一些难题有待解决,其中,最主要的问题是特征对齐操作没有考虑帧间的长距离信息。若只采用扩大感受野的方式来获取长距离信息会导致GPU显存占用率高、网络模型过大的问题。如何设计一个参数量少的网络来捕获长距离信息成为一个亟待解决的问题。

    为了解决上述问题,本文提出了一种基于轻量级注意力约束对齐网络的VSR方法,可在一定的先验条件约束下执行帧与帧之间的特征级别对齐操作,从而捕获长距离信息、减少计算力,且准确重建HR帧。具体地,受自注意力机制(Vaswani等,2017;
    Wang等,2018a)启发,本文网络将极轴约束与注意力机制结合,开发出一种轻量级注意力机制用来探索全局对应关系。对于参考帧中的每个像素,轻量级注意力机制会关注沿极轴方向的所有差异信息,并且学会聚焦于最相似的特征。实验结果表明,这种轻量级的注意力约束对齐网络的模型参数远小于对比方法,并在多个数据集上取得了优异性能。

    本文的主要贡献总结如下:

    1)提出一种轻量级注意力约束对齐网络,用于探索相邻帧与参考帧之间沿极轴方向的全局对应关系;

    2)设计了一个多阶段的动态融合网络,用来融合前向神经网络中参考帧的时域对齐特征和原始LR帧在不同阶段的空间特征;

    3)通过共享特征抽取层有效提取多层次信息,且在不增加参数量的情况下捕获视频帧中的多尺度信息;

    4)本文算法在多个标准数据集上达到领先水平,并在相同的峰值信噪比(peak signal to noise ratio, PSNR)指标下,本文模型参数远小于对比方法。

    图1 本文网络结构图

    本文的主要创新点在于所设计的注意力约束对齐子网络(ACAS)与动态融合分支(DFB)。注意力约束对齐子网络(ACAS)能够在极轴约束的条件下通过探索长距离信息捕获参考帧与相邻帧的全局对应关系,而动态融合分支(DFB)则能够动态地对时空特征进行融合。

    1.1 注意力约束对齐子网络(ACAS)

    受Wang等人(2019b)提出的视差注意力立体图像超分网络(parallax-attention stereo super resolution network,PASSRnet)和Wang等人(2022)提出的平行注意力机制(parallax-attention mechanism,PAM)的启发,本文提出了注意力约束块(attention constraint block,ACB)来捕获相邻帧与参考帧之间的全局对应关系,用于生成合理的可变性卷积的偏移量。区别于self-attention(Vaswani等,2017)机制通过在特征图的横纵轴两个维度上变换来捕获全局对应关系,本文设计的注意力约束块通过极轴约束,只需要用一个维度的计算复杂度就可以捕获全局对应关系。

    首先,特征抽取模块抽取到的特征为

    (1)

    图2 注意力约束块(ACB)

    (2)

    (3)

    为了获取可靠和一致的对应关系,本文引入了一致性来规范注意力约束对齐子网络(ACAS)。给定从一对图像M、N中提取的特征表示,其中M表示相邻帧,N表示参考帧,ACB生成两个注意力图LM→N和LN→M。理想情况下,如果ACB捕获了准确的对应关系,则可以得到以下一致性

    M=LN→M⊗N

    N=LM→N⊗M

    (4)

    式中,⊗表示矩阵乘,LN(M)→M(N)表示N(M)→M(N)的注意力图。另外,由于视频中不可避免地会出现遮挡现象,损害了一致性。为此,本文基于LM→N进行遮挡检测,生成有效掩码VN,并且只对有效区域进行一致性正则化。在图2中,通常在注意力图中(如LN→M)为与遮挡区域相对应的垂直遮挡区域分配较小的权重。这是因为参考帧中的被遮挡像素与相邻帧的对应关系很少,因此,有效掩码VN∈RH×W×1计算公式为

    (5)

    式中,τ为阈值(本文设置为0.2)。

    传统的注意力块(Wang等,2018a)通过对H和W两个维度的变换来探索全局对应关系,不仅带来了巨大的参数量,而且GPU占用率高,不易训练。本文将极轴约束与注意力块相结合捕获极轴上的全局匹配关系,表4中的实验结果证明本文提出的极轴约束的注意力块能够带来很好的增益。而且它还大大降低了模型训练时的GPU内存占用,网络模型训练速度得到提升,最重要的是本文所设计的极轴约束对齐网络的参数量也比传统的注意力机制少。

    1.2 动态融合分支(DFB)

    简单的融合只发生在初始层,随着网络层数增加,来自相邻帧的互补时间信息将逐渐减弱(Kappeler等,2016;
    Liao等,2015)。受多阶段融合策略的启发(沈明玉 等,2019),本文提出一种动态融合方法解决上述问题,如图1底部分支所示。本文采用Song等人(2021)提出的调制特征融合模块中的一个子块拼接组成动态融合分支,并且参考Wang等人(2018b)提出的SFTGAN(generative adversarial networks based on spatial feature transformation)网络确定本文的动态融合分支由16个共享权重的动态融合块组成。每个动态融合块如图1中淡橙色区域所示。它将式(3)中的时间对齐特征ψ作为共享条件来调制其输入参考帧的特征映射Ft。空间特征变换层(spatial feature transform,SFT)(Wang等,2018b;
    Song等,2021)结构见图1,SFT仿射变换为

    fSFT(Ft|ψ)=γ⊙Ft+β

    (6)

    (7)

    式中,fDFB(·)表示动态融合操作。

    2.1 实验设置

    2.2 结果分析

    本文网络与Bicubic、RCAN(residual channel attention networks)(Zhang等,2018)和DBPN(deep back-projection networks)(Haris等,2018)、光流残差(吴昊 等,2021)、VESPCN(real-time video super-resolution with spatio-temporal networks and motion compensation)(Caballero等,2017)、B_123+T(Liu等,2017)、SPMC(subpixel motion compensation networks)(Tao等,2017)、TOFlow(task-oriented flow networks)(Xue等,2019)、FRVSR(frame-recurrent video super-resolution)(Sajjadi等,2018)、DUF(Jo等,2018)、深度特征匹配(程松盛和潘金山,2021)、RBPN(Haris 等,2019)、EDVR(Wang等,2022)进行比较。

    表1显示了不同方法在4倍Vid4验证集的定量比较,包括PSNR和结构相似性(structural similarity, SSIM)(Wang等,2004)结果。Vid4是一个广泛使用的基准数据集,它包含4个视频序列:Calendar、City、Foliage和Walk,这些视频序列中包含有限的运动且高分辨率帧中存在伪影。由表1可以看出,本文网络的PSNR比EDVR_M方法高0.33 dB以上,约提升1.2%,且可以媲美RBPN网络。表2为REDS4数据集上所有方法的比较结果。REDS4是在NTIRE19挑战赛上发布的新的高质量数据集,由4个视频组成,分别为000、011、015、020,这些视频中包含更大更复杂的运动。由表2可以看出,本文方法获得最高的PSNR且比EDVR_M高出0.49 dB,约提升1.6%,PSNR和SSIM均与RBPN相当,更重要的是表3中显示的本文网络参数量远远小于RBPN。上述分析有力地证明本文方法可以通过探索长距离信息来捕获多帧之间的冗余特征,从而灵活地解决各种运动问题。

    表1 不同方法在4倍Vid4验证集上的定量比较(PSNR/SSIM)

    表2 不同方法在4倍REDS4测试集的评估结果(PSNR/SSIM)

    图3(a)演示了Vid4数据集中两个场景的可视化结果。从放大区域可以看出,本文网络重建出更精细、更可靠的细节。在Calendar视频的帧示例中,恢复出最清晰的数字31。在City视频的帧示例中,本文方法与RBPN均能对密集的大楼纹理外观进行重建。图3(b)展示了REDS4数据集上的可视化结果,可以看出本文方法能够较清晰地区分出窗户部分的细节,RBPN虽然也能较为清晰地重建出这些细节特征,但其网络结构较本文网络而言更为复杂。由表3可知,本文网络参数量仅为其二分之一。以上分析充分证明本文框架能够在大大减少计算量的情况下大幅提升视觉质量。

    图3 可视化结果

    2.3 模型大小的比较

    表3显示了本文方法与DBPN、RCAN、EDVR_M、DUF、RBPN的参数对比情况。DBPN和RCAN是目前两种最好的SISR方法,但它们都有较大的模型尺寸,参数量达1 000多万。表3表明RBPN参数量在VSR方法中是最多的。结合表2中的平均值来看,在PSNR值相当的情况下,模型Ours的参数量比RBPN少了近50%。在参数量相当的情况下,模型Ours的PSNR值远远高于DUF。而模型Ours_S的参数量虽然略高于EDVR_M,但是PSNR提高了0.21 dB(见表1)。这证明本文网络在参数量小的情况下取得了优异的性能,实现了轻量级的网络设计。

    表3 不同方法的模型参数比较

    2.4 消融实验

    本文对注意力约束对齐模块和动态融合模块进行验证。消融实验结果在Vid4数据集上测得。首先,将ACB移除并替换为简单的卷积操作,称之为Baseline。表4表明在Baseline获得最低的PSNR值,在Baseline中加入一层ACB,模型ACB-1的PSNR指标提高到23.92 dB,增益为1.81 dB。而将ACB级联3层加入Baseline中,模型ACB-3的PSNR指标达到25.13 dB,比ACB-1提高了1.21 dB。这解释了3层注意力约束对齐模块能够很好地捕获大运动,即能够比ACB-1更好地捕获远距离对应关系。另外,为了验证动态融合模块的有效性,在ACB-3模型后面接入16层动态融合块,模型DF的PSNR指标达到26.28 dB,增益为1.35 dB,这证明在特征融合过程的每个阶段逐步增强参考帧的特征,可以实现更准确的重建结果。

    表4 消融实验

    本文提出了一种轻量级注意力约束对齐网络的视频超分重建算法,在大量减少模型参数量的同时又能高效且准确地进行超分重建,文中对比实验证明了其有效性和优越性。本文的创新点总结如下:1)通过一个共享权重的特征提取器提取输入帧中丰富的多层次信息。2)在极轴约束的前提条件下,设计一个轻量的注意力对齐块使网络能够关注特征图水平轴上所有特征中最相似的特征,实现精准对齐。针对存在大运动的视频,设计一个级联3层注意力约束块的网络捕获远距离信息以生成规范的偏移量,将其与相邻帧送入可变形卷积中实现精准对齐。3)用16层共享权重的动态融合块组成的动态融合分支充分融合相邻帧的时间对齐特征和原始LR帧在不同阶段的空间特征。最后上采样重建出高分辨率视频帧。实验表明,本文方法在两个基准测试数据集上超过了先进的视频超分算法,能够提升视频帧的超分辨率细节特征,并且大大减少了参数量。

    然而,由于现有的视频超分算法的数据集有限,大部分模型旨在找到现有数据集的特性以此获得较好的结果,而在真实场景中往往存在多种不确定情况,比如未知的噪声、模糊等,如何应对这些未知情况关乎着超分算法能否落地,因此本文将进一步研究真实场景的超分,针对真实情况中的模糊噪声叠加的问题设计解决方案,继续改善算法性能。

    猜你喜欢 约束动态注意力 国内动态卫星应用(2022年7期)2022-09-05国内动态卫星应用(2022年3期)2022-05-23让注意力“飞”回来小雪花·成长指南(2022年1期)2022-04-09国内动态卫星应用(2022年1期)2022-03-09动态环球慈善(2019年6期)2019-09-25马和骑师小学阅读指南·低年级版(2017年1期)2017-03-13A Beautiful Way Of Looking At Things第二课堂(课外活动版)(2016年2期)2016-10-21适当放手能让孩子更好地自我约束人生十六七(2015年6期)2015-02-28CAE软件操作小百科(11)计算机辅助工程(2012年5期)2012-11-21阅读理解两则中学英语之友·高一版(2008年10期)2008-12-11

    推荐访问:重建 对齐 注意力