• 工作总结
  • 工作计划
  • 心得体会
  • 述职报告
  • 事迹材料
  • 申请书
  • 作文大全
  • 读后感
  • 调查报告
  • 励志歌曲
  • 请假条
  • 创先争优
  • 毕业实习
  • 财神节
  • 高中主题
  • 小学一年
  • 名人名言
  • 财务工作
  • 小说/有
  • 承揽合同
  • 寒假计划
  • 外贸信函
  • 励志电影
  • 个人写作
  • 其它相关
  • 生活常识
  • 安全稳定
  • 心情短语
  • 爱情短信
  • 工会工作
  • 小学五年
  • 金融类工
  • 搞笑短信
  • 医务工作
  • 党团工作
  • 党校学习
  • 学习体会
  • 下半年工
  • 买卖合同
  • qq空间
  • 食品广告
  • 办公室工
  • 保险合同
  • 儿童英语
  • 软件下载
  • 广告合同
  • 服装广告
  • 学生会工
  • 文明礼仪
  • 农村工作
  • 人大政协
  • 创意广告
  • 您现在的位置:六七范文网 > 其它相关 > 正文

    一种基于注意力机制的高效阴影检测算法

    来源:六七范文网 时间:2022-12-15 19:45:06 点击:

    陈啟超 黄 刚 张 敏

    (南京邮电大学计算机学院 江苏 南京 210000)

    在图像识别或语义分割等计算机视觉分类任务中,算法需要首先提取图像或视频中的特征,深度学习中通常使用卷积神经网络进行卷积操作,逐像素处理特征语义信息,寻找与标签的似然性。因此,图像的语义构成与各像素间的关联性决定着卷积操作的效率与复杂度。相关研究表明[1-4],阴影作为无关背景语义,其中包含的可用关键信息较少,对于分类任务起不到相关作用,但由于其具备与目标前景像素紧密相连且形状近似的特点,通常会对计算机视觉任务的顺利进行产生影响。同时在灰度空间中,阴影对于目标像素语义具备更高的混淆性,导致卷积神经网络不易发掘出两者间的显著区别,从而降低算法训练与预测的准确性与鲁棒性。因此,在常见计算机视觉任务,如智慧驾驶、人脸检测、目标跟踪与识别、姿态估计中,图像的阴影检测工作显得格外重要,一个高效、全面、可泛化的阴影检测模型会提升整个任务的工作效率与能力上限。

    注意力机制[5-8]通过对像素级别的语义进行权值分配,提取目标前景最为显著的特征,引导算法集中处理这些首要目标特征,降低前景与背景的关联性,达到提高模型的迭代速度与准确性的目的。因此,注意力机制适用于阴影检测任务,其独有特性对于图像中阴影的发掘具备较高的识别灵敏度。

    目前已有部分学者提出了阴影检测算法,但其中大部分算法没有考虑到注意力机制在此类任务中的适用性以及其本身的高效性,因此最终检测效果往往达不到预期效果。

    针对以上问题,本文通过研究阴影模型,结合并行网络和密集连接网络的设计特点,使用深度残差网络作为前端模型,提出一种融合注意力机制的深度网络模型APR(Attention Parallel Resnet)。此模型通过注意力机制提升算法对于阴影的识别能力,将模型的感受野从局部扩大到全局,实现检测的高效性、可靠性,通过在UCF[9]、SBU[10]阴影模型上进行验证,结果证明评价指标相比此前方法有一定提升。

    本节介绍阴影模型的分析成果,引入注意力机制的宏观概念并着重阐述本文所提出模型使用的一类注意力算法CBAM[7],为APR算法的详细描述铺垫。

    1.1 阴影模型分析

    阴影是自然界中普遍存在的现象,阴影的存在取决于光线的变化,而不受地形与反射物的影响。阴影的产生本质上是由于光线的投影,当光源如太阳、灯发出光线而被物体遮挡,在光源与物体的投影方向上便会产生阴影。如式(1)所示,阴影模型通常可表示成亮度与反射率的映射关系[1]。

    Ii=(ticosθiLd+Le)Ri

    (1)

    式中:Ii为各像素的RGB三通道向量;
    ti介于0和1,表示光线被物体遮挡的比例,极端情况下,ti为1表示光线不被物体遮挡,ti为0表示光线完全被遮挡;
    θi为光线与物体表面形成的法线夹角;
    Ld为光源亮度;
    Le为环境光亮度;
    Ri为各像素的RGB反射比例。

    在阴影检测任务中,阴影模型通常具备与本体语义近似轮廓相符、难以提取所覆盖的物体或地面像素的特征、在灰度图中容易被混淆成前景物体等特点。针对这些问题,文献[11-12]提出传统HSV空间检测算法,利用分析阴影和前景的HSV差距来区分阴影;
    Vicente等[13]提出支持向量机检测算法,构建SVM分类器对阴影进行有效分类;
    文献[14-15]提出边缘信息检测算法,使用算子提炼图像中的低阶边缘信息,获取前景与阴影的边缘,从而达到分类效果;
    Hosseinzadeh等[16]提出神经网络检测算法,利用卷积神经网络对图像进行卷积处理,获取高阶特征,大大提升准确度;
    Nguyen等[17]提出生成对抗网络检测算法,使用生成器和判别器处理图像,准确度提升的同时却大大增加了模型的复杂程度。虽然上述算法都能起到检测阴影的效果,但并没有考虑到注意力机制在此类任务中的适用性以及其本身的高效性,导致预测效果不够理想。

    1.2 注意力机制

    人脑具备强大的注意力集中能力,当眼睛观看图像时,注意力很容易被图像中重要的一些区域所吸引,从而使得大脑能更快接收到对应的重要信息。

    在深度学习中,注意力机制的创造源于人脑的注意力模型。注意力机制最初被用于机器翻译[8],现在已成为神经网络结构的重要组成部分,并在自然语言处理、统计学习、语音和计算机等领域有着大量的应用。其主要核心观点在于对每一组输入生成对应的键、值和查询,通过一种查询生成键与值之间的权重关系,并将这种权重添加到输入中,为序列中每一元素进行权重的求和操作,从而获得输入对于全局的重要程度,实现类似于人脑生成注意力的生理过程。如式(2)所示,注意力机制可表示成键、值和查询间的函数关系。

    (2)

    式中:Ct表示t序列中生成的注意力;
    αt,i为t序列第i个输入键的查询结果,这种查询往往是一系列的函数操作;
    hi表示第i个输入键的值。

    通过式(2)可知,注意力的生成本质是一种加权求和,基于这一特性,注意力的生成过程在深度神经网络中通常可视为是一种池化操作。图1代表一种机器翻译序列模型生成注意力的过程。

    图1 一种可行的机器翻译注意力生成模型

    注意力机制通常可被分类为Soft&Hard Attention、Global&Local Attention、Hierarchical Attention、Self Attention等,其主要区别取决于键与值的相对关系、注意力生成的模式与范围、查询函数的种类等因素。

    1.3 融合混合域注意力机制的算法CBAM

    对于计算机视觉任务,注意力机制起到为图像的每一个像素生成权值的作用。理想情况下,前景像素的权值会不断增加,背景像素的权值会逐渐减小,通过权值间差距的扩大,起到不同语义分离的效果。

    CBAM[7](Convolutional Block Attention Module)是一种在计算机视觉任务中可靠的注意力机制算法,具备简单的算法结构与可观的实际效果。CBAM结合了卷积神经网络的空间和通道,为不同注意域的图像与特征图生成各自的注意力,引导模型更高效地区分语义信息。

    CBAM由空间域注意力生成模块和通道域生成模块组成,并需要使用加权求和操作将这两种模块相组合。其中,空间域生成模块可表示为:

    (3)

    根据卷积神经网络输出的特征图F,同步进行特征图的全局平均池化与全局最大池化操作。之后将两种池化的结果基于通道相连接,再输入一个目标通道数为1、卷积核为7×7的卷积网络,在不改变特征图长宽的条件下,将通道数降为1,再使用激活函数Sigmoid转化输出为非线性数据,得到空间域注意力矩阵Ms(F)。图2表示CBAM的空间域生成模块。

    图2 空间域生成模块

    通道域生成模块可表示为:

    (4)

    在通道域注意力模块中,将特征图F同步进行基于通道的平均池化与最大池化操作,再将两种操作的结果分别输入相同的多层感知机中,直接相加得到的两个向量,输入Sigmoid激活函数,输出通道域注意力矩阵Mc(F)。图3表示CBAM的通道域生成模块。

    图3 通道域生成模块

    在混合域空间,结合空间域与通道域各自生成的权值注意力矩阵,实现特征图在通道域、空间域的先后顺序融合。图4表示CBAM的注意力融合过程。

    图4 融合注意力生成模块

    CBAM可以在提升重要特征权重的同时,降低无关背景的权重,扩大不同语义间的相对距离,加速模型迭代与优化速度。考虑到CBAM的易用性与高效性,本文提出的APR模型融合并改进了这一算法。

    深度残差网络[18]在卷积模块中引用残差思想,在保证模型不断向前迭代的同时,提高了优化的准确率。由于其根本特性,每一次残差操作都实现了输入与输出的求和,所得的新的输出必定不等同于输入,从根本上解决了网络面临的退化问题。近年来,不少学者通过改进残差网络,应用于各个领域,达到了传统卷积神经网络无法达到的高度。如Zhu等[19]结合残差网络Resnet-101,设计全新的小物体检测模型,效果显著;
    Chen等[20]改善了传统残差模型,在不影响准确率的情况下,降低了模型的复杂程度,提高了训练效率。图5是一种深度卷积残差网络中的一个残差模块。

    图5 残差模块

    本文算法APR是一个在深度残差网络Resnet50的基础上,融合注意力模型CBAM,结合并行网络[21]、密集连接网络[22]设计思路的高效阴影检测网络。在避免网络深度大幅度增加的前提下,使用注意力机制提取重点特征,并实现了特征融合重用,从而提高了模型的工作效率。

    2.1 并行卷积模块Parallel Block

    Resnet50网络具备高效的特征提取能力,随着网络深度的增加,特征图通道数增加,但特征图尺寸随之减小,有利于高层次特征的提取。考虑到语义分割任务中图像尺寸的变化会导致像素级别特征的提取精度降低,结合并行网络的设计思路,根据Resnet50各残差块形状设计两类对应的残差卷积模块,从不同的尺度维度和感受野获取图像更多特征,这两类残差卷积模块与Resnet50残差块并行工作,组成并行卷积模块Parallel Block。图6表示第一类残差卷积模块。

    图6 第一类残差卷积模块

    此模块基于残差网络设计,将形状为(n,c,x,y)的特征图顺序输入5个卷积块,其中:n为批量大小;
    c为特征图通道数;
    x和y表示特征图尺寸。首先将特征图拓展至更高的维度进行特征提取,再逐步通过卷积层降维,压缩高维特征,精炼图像信息,最后利用残差连接,避免网络退化。本模块的作用在于提取并行的Resnet50残差块在这一层次无法提取到的高维特征,达到提前获取更多层次信息的作用。与此同时,设计另一类残差卷积模块发挥尺度放大作用。图7表示第二类残差卷积模块的结构。

    图7 第二类残差卷积模块

    本模块的卷积层利用更大的5×5卷积核,为模型提供更大的感受野,降低了卷积核大小固定带来的视野局限性,有利于获取更多的全局信息。放大感受野同时会为注意力模块提供更多非局部信息,使得注意力的生成更加准确。

    上述两类残差卷积模块与原始残差卷积网络Rsenet50的残差块并行独立工作,组成并行卷积模块Parallel Block。其中,三种残差卷积模块的输出最终会基于通道连接。图8为一个并行卷积模块的结构。

    图8 并行卷积模块Parallel Block

    并行卷积模块从不同的角度与方式提取特征,降低了模型的耦合程度,虽然有限地增加了模型的宽度,却避免增加模型的深度与总体复杂程度以达到同样的效果,同时使得特征提取更加多样性,实现了特征提取工作的高效与准确。

    2.2 改进的注意力生成模块conv-CBAM

    研究表明,CBAM[7]是一种高效的混合域注意力生成模型,结合本文设计模型实际情况与模块间连接需求,需要在其原本基础上做出一些改进。

    结合并行卷积模块Parallel Block的并行连接思想与压缩特征的性能,在CBAM空间域生成模块添加目标通道数为1的卷积层,与原有平均池化、最大池化结果连接再输入7×7降维卷积层,输出空间域注意力矩阵。图9表示改进后的空间域生成模块。

    图9 改进后的空间域生成模块

    由于并行卷积模块Parallel Block的输出由三个残差卷积模块输出的特征图基于通道连接而成,之后再输入注意力生成模块CBAM,而基于通道连接后的特征图往往具备更高的通道数,故需在CBAM融合混合域注意力前添加降维卷积模块,避免后续通道域生成模块的广播异常,降维卷积模块由3×3卷积层、批量归一化层组合而成。

    改进后的注意力生成模块conv-CBAM由降维卷积模块、原始的通道域生成模块和改进的空间域生成模块组成。

    2.3 APR网络结构

    本文设计的阴影检测网络APR基于预训练的残差卷积网络Resnet50。其中,Resnet50具有四个不同维度的残差卷积模块Residual Block,本模型基于各Residual Block组成四个并行卷积模块Parallel Block。在每个Parallel Block中会获得三种形状一样的特征图输出,基于通道连接后,输入改进的conv-CBAM注意力模块,获得这一层次的加权注意力特征图并与其他层次得到的特征图进行密集连接,再输入下一层次的并行卷积模块。考虑到模型在经过四个并行卷积模块后,最终会将图像尺寸缩小四倍,故添加上采样转置卷积层,还原输出图像尺寸。图10为本文设计的阴影检测网络APR的模型结构。

    由于模型使用并行连接网络,在模型宽度维度上提取了更多可用特征,故相较于原始Resnet50,去除核心注意力模块conv-CBAM后,并未额外增加模型深度。通过密集连接各加权注意力特征图,充分重用特征,获得额外输入并相互映射传递,避免模型退化,提高了模型的工作效率。

    图10 APR模型结构

    3.1 实验数据集

    为了与之前部分阴影检测模型进行对比与分析,故使用这些模型在实验中同样使用的公共数据集SBU[10]阴影数据集与UCF[9]阴影数据集。SBU数据集包含4 089幅训练图像与638幅测试图像,UCF数据集包含245幅图像。为了验证模型跨数据集的泛化能力,将UCF数据集所有图像用于测试,最终用于本文设计的阴影检测模型的数据集包括4 089幅训练图像和983幅测试图像。

    3.2 损失函数与评价指标

    观察阴影数据集,存在正负样本比例不平衡的情况,图11为具有此类问题的一例训练集图像。

    图11 一例训练集图像与其真实检测结果

    真实检测结果中,黑色像素代表背景信息,白色像素表示待检测阴影信息。本例中,白色阴影像素在全局中所占比例较低。在完整的数据集中,普遍存在此类正负样本分布不平衡的情况,经过综合分析,使用Focal Loss[23]作为最终模型训练的损失函数,式(5)表示Focal Loss的具体定义。

    (5)

    式中:α取0.25,平衡正负样本损失;
    γ取2,减少背景样本损失,使分类器关注阴影样本信息。

    为了对实验结果进行分析与比较,采用与之前部分阴影检测模型相同的评价指标[16-17]:阴影像素检测错误因子SER、非阴影像素检测错误因子NER、平均检测错误因子BER,定义如下:

    SER=(1-TP/Np)×100

    (6)

    NER=(1-TN/Nn)×100

    (7)

    BER=(SER+NER)/2

    (8)

    式中:TP、TN分别表示正确检测的阴影像素数和正确检测的非阴影像素数;
    Np、Nn分别表示阴影像素总数和非阴影像素总数,错误因子越低代表模型的阴影检测准确率越高,像素语义信息的分类越正确。

    3.3 实验结果与分析

    使用SBU和UCF两大数据集,结合评价标准,本文模型在ubuntu16.04、Python3.6、mxnet-cu100环境下搭建,在一张Tesla P100显卡上训练并测试,处理一幅图片平均耗时0.031 s,预计检测速度达到32.2帧/s,具备一定的高效实时检测能力。SBU、UCF两种测试集具体测试结果与常见同类型阴影检测模型的对比结果如表1和表2所示。

    表1 SBU测试集实验结果

    表2 UCF测试集实验结果

    通过对比与分析发现,本文算法APR在SBU测试集上具备较好的性能提升,在UCF数据集上NER与BER指标相较于其他模型大幅度下降。跨数据集验证的成功,证明了本模型具备可靠的泛化能力。且通过与ST-CGAN[25]模型实验结果对比,证明了本模型在正负样本上的检测平衡能力,分类器不会因正负样本数量比例的不平衡而导致分类结果的不平衡。

    图12为一组测试集数据的目视效果对比,直观反映了模型的检测准确程度。

    图12 一组测试数据的检测结果与真实结果的目视效果对比

    通过目视分析,发现测试数据整体检测准确率较高,对于类别分类基本无误,能够高效区分阴影与非阴影语义信息,提取两者间的特征差距,实现了阴影检测模型的基本功能。与此同时,由于模型特征提取前端基于Resnet50,总体深度不大,所以对于边缘信息的提取与分类不够精细,导致预测结果与真实结果仍有偏差。对于困难情况,如图12第5列图像,预测出现了错误分类结果,将图像右上角接近阴影颜色的深色地砖误识别为阴影。根本原因在于特征的提取不够彻底,在提取复杂场景的语义信息时易受到干扰,尤其是当非阴影语义信息与阴影语义信息接近时,这种干扰更为明显。一般来说,不考虑模型训练的硬件成本与时间成本,扩大网络深度与提高数据集图像质量能够解决这一类问题。

    3.4 各模块效果探究

    实验中,为了探究APR模型各模块起到的作用,搭建了四个参照网络进行对比验证。第一个网络为原始预训练的Resnet50网络,仅修改其最后的输出层;
    第二个网络为Resnet50+CBAM网络,在原始Resnet50网络的基础上在各残差卷积块间连接未改进的注意力模块CBAM;
    第三个网络为Resnet50+conv-CBAM网络,在原始Resnet50网络的基础上在各残差卷积块间连接改进后的注意力模块conv-CBAM;
    第四个网络为Resnet50+Parallel Block+conv-CBAM网络,即对原始Resnet50各残差模块重组,采用前文所述的并行卷积设计思路,组建并行卷积模块,且各模块间连接改进后的注意力机制模块,但各层输出结果不使用密集连接相连。以上四类网络结构不同,并且复杂程度越来越高,与采用密集连接思路的完整网络APR相互对比可分别验证注意力机制CBAM、改进后的注意力机制conv-CBAM、并行卷积模块、密集连接设计方法的作用。为保证验证实验的可信度,各模型训练采用相同的损失函数、数据集与训练策略,并且对预测结果采用相同的评价指标进行评价,具体的各模块探究实验结果如表3所示。

    观察实验结果可知,本文提出的完整模型APR评价指标均优于验证实验搭建的四类参照网络,且这五种网络随着模型复杂程度的加深,评价指标数值总体上也逐渐降低,体现了各模块设计的合理性,确保了本文算法的可信度。

    考虑到计算机视觉任务中阴影模型对于图像前景的干扰,本文设计一个高效的阴影检测模型APR。分析注意力机制的易用性与加权求和工作机制,结合可避免网络退化的残差神经网络,本文所提出模型在融合了注意力机制与残差网络的基础上,还参考了密集连接与并行连接设计思想,因此具备高效的阴影识别能力与阴影语义提取能力。经过实验验证,模型在SBU与UCF数据集上预测表现优秀,评价指标相比于同类对比模型有一定提升,且通过跨模型验证与模型内部模块效果探究,证明了模型的结构合理性与其泛化能力。但是,由于阴影模型本身对于前景图像具备干扰能力,且数据存在正负样本比例分布不平衡的情况,模型对于阴影边缘信息的提取与预测不够精细,并且在复杂场景下,随着干扰因素的显著增加,模型对于语义信息的提取会产生一些偏差。如果扩大网络深度或提高数据集图像质量会降低复杂场景出现分类错误的可能性,随着模型结构的优化,模型的表现能力会随之提高,以适应更多复杂场景下的阴影检测工作,后续研究仍有一定的价值。

    猜你喜欢 残差卷积阴影 基于全卷积神经网络的猪背膘厚快速准确测定农业工程学报(2022年12期)2022-09-09多级计分测验中基于残差统计量的被试拟合研究*心理学报(2022年9期)2022-09-06基于图像处理与卷积神经网络的零件识别计算技术与自动化(2022年1期)2022-04-15用于处理不努力作答的标准化残差系列方法和混合多层模型法的比较*心理学报(2022年4期)2022-04-12基于深度卷积网络与空洞卷积融合的人群计数上海师范大学学报·自然科学版(2019年5期)2019-12-13阴影记文学港(2017年11期)2017-12-06阴影金山(2017年4期)2017-06-08卷积神经网络概述中国新通信(2017年9期)2017-05-27阴影魔怪数学大王·中高年级(2016年4期)2016-05-14测量数据的残差分析法科技与创新(2015年19期)2015-10-14

    推荐访问:高效 算法 注意力