• 工作总结
  • 工作计划
  • 心得体会
  • 述职报告
  • 事迹材料
  • 申请书
  • 作文大全
  • 读后感
  • 调查报告
  • 励志歌曲
  • 请假条
  • 创先争优
  • 毕业实习
  • 财神节
  • 高中主题
  • 小学一年
  • 名人名言
  • 财务工作
  • 小说/有
  • 承揽合同
  • 寒假计划
  • 外贸信函
  • 励志电影
  • 个人写作
  • 其它相关
  • 生活常识
  • 安全稳定
  • 心情短语
  • 爱情短信
  • 工会工作
  • 小学五年
  • 金融类工
  • 搞笑短信
  • 医务工作
  • 党团工作
  • 党校学习
  • 学习体会
  • 下半年工
  • 买卖合同
  • qq空间
  • 食品广告
  • 办公室工
  • 保险合同
  • 儿童英语
  • 软件下载
  • 广告合同
  • 服装广告
  • 学生会工
  • 文明礼仪
  • 农村工作
  • 人大政协
  • 创意广告
  • 您现在的位置:六七范文网 > 其它相关 > 正文

    利用卷积块注意力机制识别人体动作的方法

    来源:六七范文网 时间:2023-05-07 14:35:17 点击:

    高德勇,康自兵,王 松,王阳萍,3

    (1.兰州交通大学 电子与信息工程学院,甘肃 兰州 730070;
    2.甘肃省人工智能与图形图像工程研究中心,甘肃 兰州 730070;
    3.甘肃省轨道交通装备系统动力学与可靠性重点实验室,甘肃 兰州 730070)

    面向视频的动作识别研究具有重要的学术价值和应用前景,所以这一问题迅速成为计算机视觉领域内的研究热点和难点[1]。以视频为载体的动作分析与研究[2],通常是对视频帧序列进行分析处理,挖掘并学习图像帧的表观特征和序列之间潜在的时空关系,利用视频帧序列的时空特征构造视频内容和行为类别的对应关系,进而使得计算机能够理解视频中的内容。

    近年来,借助于深度神经网络的自学习能力对数据进行抽象表示,并在大规模数据集上训练来获得更加鲁棒的性能,基于深度学习的图像分类模型[3]已经表现出优良的性能。因此,深度网络模型也被引入到视频分析的任务当中进行动作识别。文献[4]首次提出双流卷积神经网络模型,分别以视频帧作为空间流网络的输入提取视频的静态信息和以光流作为时间流网络的输入获取图像序列之间的运动信息。文献[5]提出C3D(Convolutional 3D,C3D)网络,在整个网络结构中均采用三维卷积和三维池化提取视频的时空特征,相对于2D卷积和池化而言,3D卷积保留了视频帧间的时序信息,并且刻画了时间-空间的对应关系。但以上方法仅能实现对视频的短时域结构的建模,无法利用整个视频的长时信息。文献[6]针对长距离时序依赖问题,在双流网络的基础上,采用稀疏采样策略提取视频的多个短片段,然后在多个视频剪辑的时间结构上构建长时时序模型。文献[7]在卷积神经网络的全连接层后连接长短时记忆网络(Long Short Term Memory,LSTM)提出新的长时循环卷积网络(Long-term Recurrent Convolutional Networks,LRCN)结构,该模型综合每个时间节点上对视频的预测值来对整个视频分类预测。虽然双流网络、C3D和循环网络这些方法都取得了优良的性能,但都只关注了动作发生的整个场景,忽视了场景当中不同区域对动作特征的表示起着不同作用的重要性。文献[8]在编解码框架下,采用注意力机制对图像各个区域赋予不同的权重,生成具有不同权值的上下文向量,由上下文向量指导生成对图片描述的语句。文献[9]在传统特征提取网络的基础上,引入残差网络形式的注意力机制和特征融合策略,使得算法模型获得更好的定位效果。文献[10]使用软注意力机制来关注与动作相关的区域,将加权后的特征图送入多层LSTM进行行为类别的预测。文献[11]引入姿态注意力机制,通过人体语义相关的关节点共享注意力参数来获得鲁棒的人体特征。

    为了提取图像中更具有区分性的特征,加入注意力机制来关注视频帧的部分重点区域。当前大多数方法是在基础网络的末端嵌入注意力机制,采用卷积神经网络高层输出作为长短时记忆网络的输入。但一般的注意力机制仅对不同通道的权值进行标定,忽略了同一通道中的像素的位置信息。文献[12]将空间变换网络和长短时记忆网络结合提出新的基于注意力的网络。在特征图中,通过仿射变换动态地采样多个显著的空间位置。文献[13]从Inception-V3的多层引导提取不同通道的特征,再以网络预测值作为权重构建预测—注意力池化描述子。笔者提出的方法建立在以上研究工作的基础上,通过引入卷积注意力模块(Convolutional Block Attention Module,CBAM)[14]分别从通道和空间两个维度考虑注意力权重对特征的影响,实现对输入特征的自适应调整。传统的LSTM擅长于处理时序问题,但并未考虑到时空数据中的空间结构信息。受VideoLSTM[15]网络结构的启发,采用卷积长短时记忆网络(Convolutional LSTM,ConvLSTM)对特征的序列信息建模,将特征图作为ConvLSTM的输入,实现对视频帧的分类预测。

    借助于卷积神经网络强大的特征表示能力,对视频帧的静态信息进行抽象表示;
    在选择去关注哪些是区分性的信息时,使用可以即插即用的卷积注意力模块来处理一般注意力机制中仅侧重通道特征选择的问题。同时考虑到视频是一种具有空间结构和时间特性的媒介,长短时记忆网络在处理时空序列数据时,只分析处理了时序信息却丢失了原有的空间结构。笔者采用ConvLSTM对整个视频的长时时序问题进行处理,使用卷积替换在原有长短时记忆网络中的乘法运算来保留特征中的空间结构,网络模型如图1所示。首先使用预训练的CNN(ResNet-50)来提取视频帧的特征图;
    然后将得到的特征图送入卷积注意力模块进行特征的精细化调整,选择关注更富有信息的区域;
    为了避免参与分类的特征图受到噪声的干扰,引入短接结构[16],将初始特征图与经过注意力机制加权后的特征图逐元素相加来抑制噪声数据;
    最后利用ConvLSTM对经过注意力调整后的特征图分析处理并给出相应帧的预测。

    1.1 卷积特征提取

    使用在ImageNet上预训练的ResNet-50网络[17]作为视频帧的特征提取器,以视频帧Vi为输入,则f=φ(Vi)表示经过卷积和池化后得到的特征图,大小为H×W×D,其分别表示特征图的高度、宽度和通道的数量,φ(·)表示ResNet-50网络。鉴于高层特征是对图像帧语义信息的抽象表示,对图像的表观和运动特征进行全局性的概括,所以文中提取网络最后一层卷积层的特征图。在t时刻,得到H×W×D的特征图,然后将此特征图以特征切片的形式表示:

    Ft=[Ft,1,…,Ft,H×W],Ft,j∈RD,

    (1)

    其中,Fi,j为特征图在不同通道中相同区域的特征表示,然后通过注意力模块对特征图选择关注感兴趣区域。

    1.2 注意力模块的搭建

    卷积注意力模块是WOO等[14]在通道注意力的基础上增加了空间注意力分析。如图2所示,该注意力模型使得在图像分类和目标检测等方面的识别性能得到了进一步的提升。文中以ResNet-50网络的输出特征作为该注意力模块的输入特征,沿着通道和空间两个维度顺次推算出注意力权重,然后再与输入的特征图进行运算来对特征的选择进行自适应的调整。整个模块主要由两部分构成:通道注意力和空间注意力,以通道注意力来选择什么是显著的特征,以空间注意力来关注显著特征的位置信息,二者互为补充,进一步聚焦于兴趣区域。

    给定初始特征图F∈RH×W×D作为输入,注意力模块依次计算出通道注意力图Mc∈Rc×1×1和空间注意力图MS∈R1×H×W,计算公式如下:

    F′=MC(F)⊗F,F″=MS(F′)⊗F′ ,

    (2)

    其中,⊗表示对输入特征图与注意力图中的元素进行逐一相乘,F′是经过通道注意力赋予权重的特征图。然后对通道注意力特征图F′进行空间注意力分析,即可得到被卷积注意力调整后的最终特征图F″。

    1.2.1 通道注意

    (3)

    其中,σ(·)为Sigmoid函数,W0和W1为多层感知机的权重参数。

    1.2.2 空间注意力

    与通道注意力不同,空间注意力更多聚焦于兴趣区域的位置信息,和通道注意力形成互补关系。如图4所示。

    (4)

    其中,σ(·)为Sigmoid函数,f(·)表示卷积运算。

    1.3 卷积长短时记忆网络

    长短时记忆网络作为循环神经网络的变体克服了长距离时间依赖的问题,在机器翻译、语音识别和图像描述等任务中得到了广泛应用。而视频作为一种时序性载体,凭借长短时记忆网络对长时依赖关系的处理能力在动作识别的任务中[7]也呈现出出色的性能。然而传统的长短时记忆网络对图像帧进行序列化建模时,将时空特征通过全连接操作转换为时序特征,因此导致无法对空间结构信息进行编码。为克服这一问题,SHI等[18]首次在降雨预测模型中提出卷积长短时记忆模型(Convolutional LSTM network,ConvLSTM),其结构如图5所示。

    随后,一些研究者[12,15]将ConvLSTM应用于动作识别任务中,验证了ConvLSTM的性能要优于传统的长短时记忆网络。在以上工作的基础上,笔者采用多层ConvLSTM对视频图像帧序列建模分析并给出预测。为了保留时空特征中原有的空间结构信息,ConvLSTM区别于传统的长短时记忆网络,用卷积运算替代了长短时记忆网络中全连接层中的乘法操作。关于ConvLSTM的具体定义如式(5)~(9)所示:

    it=σ(Wxi*xt+Whi*ht-1+Wci∘ct-1+bi) ,

    (5)

    ft=σ(Wxf*xt+Whf*ht-1+Wcf∘ct-1+bf) ,

    (6)

    ct=ft∘ct-1+it∘tanh(Wxc*xt+Whc*ht-1+bc) ,

    (7)

    ot=σ(Wxo*xt+Who*ht-1+Wco∘ct+bo) ,

    (8)

    ht=ot∘tanh(ct) 。

    (9)

    在上述公式中,*表示卷积,∘表示向量中对应元素相乘,Wx-和Wh-为卷积核的权重参数,b~为偏置项,σ(·)为Sigmoid函数,it,ft,ot,ct和ht分别为输入门,遗忘门,输出门,记忆单元和隐藏状态。在时间节点t,ConvLSTM以第t帧加权后的特征图为输入,结合前次状态的历史记忆来预测第t帧的类别,同时保留了特征在空间结构的不变性。另一方面,从以往的研究工作中表明堆叠多层ConvLSTM具有更好的识别性能。

    1.4 模型损失函数

    笔者使用的损失函数与用文献[12]中的策略一致,基于交叉熵和双随机惩罚来设定损失函数:

    (10)

    2.1 实验数据集

    为了验证所提网络结构的有效性,选择YouTube,UCF101和HMDB51数据集对笔者提出的方法进行实验评估与分析。

    YouTube数据集[19]视频来源于YouTube视频网站,视频总数为1 168个,视频分别率为320×240像素。包含11个动作类:投篮、骑自行车、跳水、打高尔夫球等。包含相机运动、尺度变化和复杂背景等干扰性因素。

    UCF101数据集[20]视频来源于YouTube,包含101种动作类别,视频总数为13 320个。其视频具有较大的多样性,包括相机运动,目标外观和姿态的差异,目标尺度和视角的变化以及杂乱背景和光照不均等。每一类动作由25个对象执行,每个对象执行4到7组动作。该数据集总体上可以分为5大类:人物交互、人的肢体动作、人与人的交互、乐器演奏和体育运动。

    HMDB51数据集[21]的视频主要来源于YouTube,谷歌视频网站,以及电影片段等。包含51种动作类别,视频总数为6 766个,每种动作类别都有超过100个动作片段。整个动作类别大致分为5类:面部动作、面部与目标物体交互的动作、肢体运动、肢体与物体的交互和人与人之间的交互动作。

    2.2 实验设置

    (1) 在CNN-RNN的动作识别框架下,卷积神经网络(ResNet-50)网络作为图像帧的特征提取器,采用在ImageNet上预训练好的模型参数。

    表1 ConvLSTM单元的参数设置

    (2) 为了减少方差,避免数据划分对模型性能带来的敏感性影响。如表1所示,采用交叉验证的方法对ConvLSTM单元的超参数选择设定,其中包括卷积层卷积核的尺寸、学习率、权重衰减系数和丢失率。

    (3) 使用Adam优化算法[22]来优化网络的损失函数。

    (4)训练集和测试集按3∶1的比率划分,视频的选择都是随机的,这在一定程度上增强了模型的泛化能力。

    (5) 对于模型的训练和测试,借鉴文献[10]的方法。将每个视频以30帧为单位进行采样,采样步长为1,所以一个视频将会被分成多个长度为30帧的视频块。在分类阶段,通过ConvLSTM直接预测每个单帧的类别得分,并在帧级别上对采样片段的类别得分求取平均值,以此确定视频片段的预测类别得分。类似地,整个视频的预测类别最终由构成它的所有视频块(长度为30帧的样本)的类别得分共同确定。

    (6) 关于初始特征图和经过注意力机制的特征图进行加权的权值选择问题,仅在YouTube数据集上通过经验设定和实验对比分析,如图6所示,分别取5组权值进行对比分析,以步长为0.1改变二者的值,得出初始特征图的权值λ1为0.2,经过注意力机制的特征图的权值λ2为0.8时分类效果最佳。当λ1>0.2,λ2<0.8时,准确率又逐渐下降,其原因可能是随着经过注意力机制的特征图的权重下降,降低了注意力分布对模型的引导作用,导致模型的分类性能下滑。进一步,对比分析了未加权之前的准确度和引入注意力机制加权后的准确度,将对比结果记录在表3中。

    (7) 整网络的实现采用Tensorflow1.5.0深度学习框架,模型的训练和测试在Intel(R)Xeon(R)Gold 5115 CPU,64 GB RAM和单卡的NVIDIA(R) GTX 2080Ti GPU的工作站上运行。

    为验证不同的卷积神经网络特征提取器对模型分类效果的影响,采用VGG-16,GoogleNet和ResNet-50这3种基础网络来编码视觉特征,然后对比这3种基础网络对模型识别效果的影响。对于不同特征编码器的选取,仅在YouTube

    数据集上进行对比分析。

    表2 不同CNN对模型性能的影响

    3个基础网络的权重模型全部采用在ImageNet上训练的权重参数,通过表2可知,ResNet-50在YouTube数据集上的分类效果最佳,反映出深层次的结构对特征的刻画更加充分,从而提高了模型的识别效果。故在后续的实验当中均以ResNet-50来提取图像帧的特征。

    文献[10]选择堆叠3层的长短时记忆网络处理视频帧的序列信息,说明在一定程度上增加长短时记忆网络层数保证了对时间信息的充分利用。对于视频图像帧序列的预测,分别对不同的ConvLSTM层数进行实验分析。

    对1到5层的ConvLSTM分别结合前一阶段的特征图对帧序列进行预测分类,如图7所示,堆叠3层的ConvLSTM在YouTube数据集上的性能最佳,因此确定采用3层的ConvLSTM作为“CNN-RNN”结构中的RNN组件。

    如表3所示,仅使用RGB数据作为输入,控制其他条件一致(如特征提取器:ResNet-50和序列预测模型:3层ConvLSTM),将未加权之前的准确度和引入注意力机制加权后的准确度在本文所用的3个数据集上分别进行了测试对比,加权后的测试准确度均高于未加权的测试准确度。实验结果表明,注意力机制在不同卷积通道和空间位置信息上可合理地配置特征图的资源,有效地提升模型的辨识能力。

    表3 未加权和引入注意力加权后的准确率对比

    2.3 实验结果

    2.3.1 定量分析

    在UCF101和HMDB51两个数据集上,仅使用RGB数据来训练和测试,对比了文中方法与软注意力机制(Soft Attention)[10]在两个数据集上单一动作类的识别准确度,如图8(a)~(b)所示,利用卷积注意力模块对特征做出精细化的调整,以通道注意力用来捕获图像中所要强调的突出特征,以空间注意力来关注突出特征的位置信息。与一般注意力机制中仅侧重于通道特征选择的不足,对通道注意力特征图加以空间位置的分析,使得注意力区域更加集中,模型也更有针对性的赋予权重,在一定程度上减少了干扰性因素的影响。HMDB51数据集上对比结果记录在图8(a)中,在51种动作类中有33类动作,文中方法的识别准确率要优于软注意力机制的方法,12类动作保持与软注意力机制的识别率相同,6类动作准确率略低于软注意力机制的方法。UCF101数据集上对比结果记录在图8(b)中,在101种动作类中有61类动作文中方法的识别准确率要优于软注意力机制的方法,27类动作保持与软注意力机制的识别率相同,13类动作准确率略低于软注意力机制的方法。

    对比软注意力机制的方法,在两个数据集上统计了文中方法识别准确率提升排名前15的动作类别,统计结果如表4所示。

    表4 文中方法与基准网络在测试集上单类识别准确率提升排名前15的动作类别%

    为了使得模型获得更好的泛化能力,利用不同的输入模态验证笔者所提出的方法。分别以RGB图像,光流图像和RGB+光流3种形式来训练网络,并将这3种形式在两个数据集上的对比结果记录在图9中。利用OpenCV库中封装的TVL1算法计算相邻两帧的光流图像,并将光流的水平和垂直分量线性调整到[0,255]的范围内,参考文献[23]中在长短时记忆网络的网络结构下图像帧+光流的输入模式,分别将RGB图像和光流图像输入到网络,然后在最后的决策层将二者的识别结果进行融合,做出全局最优决策。分析了3种形式作为输入来训练网络之后得到的结果,RGB+光流在两个数据集上都取得了最好的效果,其原因可能是不同形式的数据之间存在一定的互补性,从而使得模型可以学习到更好的特征表示。单独使用光流的性能要高于单独使用RGB图像,说明光流中蕴含的运动信息可以实现对运动更精细的刻画,结合光流场中的运动信息能够有效提高动作分类的准确率。

    确定了特征编码的基础网络,注意力模块之后。仅使用RGB数据,基于“CNN+RNN”框架,分别以“CNN+LSTM”和“CNN+ConvLSTM”两种结构在HMDB51和UCF101数据集上验证更适合于笔者提出的网络结构,将这两种结构在两个数据集上的结果记录在表5中。如表5所示,ConvLSTM结构在HMDB51和UCF101上的准确率分别约高于LSTM结构1.94%、2.13%。在保持其他可变因素一致的前提下,ConvLSTM结构性能优于长短时记忆网络结构的主要受益于它特有的卷积运算,使得ConvLSTM不仅具备对时序问题的处理能力,而且保留了特征的空间结构信息,充分考虑到了时空特征的时序依赖性和空间不变性。

    表5 “CNN+LSTM”和“CNN+ConvLSTM”两种结构识别准确率的对比

    为了更好地评价模型的训练速度,在具体的硬件和实验环境下(节2.2实验设置(7)中已给出声明),通过单位时间内处理视频帧的数量(FPS)来衡量文中所使用“CNN+ConvLSTM”结构消耗的时间代价,并与未替换之前的长短时记忆网络进行对比分析。如表6所示,“CNN+ConvLSTM”结构要比“CNN+LSTM”结构处理视频帧的速度要约低35%,其原因是ConvLSTM中大量的卷积操作造成了较大的运算量,这也是未来将要关注的内容,在保持模型分类精度不受损失的前提下,寻找更佳的优化策略来优化模型的处理速度。

    表6 “CNN+LSTM”和“CNN+ConvLSTM”两种结构处理速度的对比

    最后,为了体现文中方法的有效性,将在HMDB51和UCF101数据集上与当前具有代表性的其他动作识别算法的结果进行对比。不同算法的对比结果如表7所示。由表7的实验结果对比得知,笔者提出的结合卷积注意力模块和卷积长短时记忆的网络模型取得了更好的实验效果。具体来说,采用多个模态的数据来优化网络可获得更佳的性能(如LTC,VideoLSTM,SOFI+SI等),原因是不同形式的数据之间(RGB+光流)存在一定的互补性,从而使得模型可以学习到好的特征表示。对于LSTM Spatial Transformer而言,文中在HMDB51数据集上的识别率要比其略低1.84%,在UCF101数据上的识别率与文中方法的结果相同。这可能是因为LSTM Spatial Transformer加入了时间连续性分析,减少了冗余帧带来的影响。与其他的几种方法:时序3维卷积网络(T3D-Transfer),长时循环卷积网络(LRCN)和区分性的运动描述子(DKD)相比,文中方法的准确率均有所提升。

    表7 不同方法在HMDB51和UCF101数据集上的识别准确率%

    2.3.2 定性分析

    在这一部分,为了更加直观地论证文中方法的优势所在,对赋予注意力权重的特征图通过热力图的方式进行可视化的展示。对于注意力的研究,众多研究者致力于用注意力模型教会网络该如何专注于感兴趣的区域,就视频动作识别而言,是将网络的焦点集中在动作发生的相关区域,然后通过这些区域来决定所执行动作的类别。从3个数据集中随机地选择3个动作样本示例,如图10所示,分别是(a)颠球,(b)吃、(c)拉小提琴,其中在每一副图中第1行是随机选取地非连续的5个动作样本帧,中间一行是通过软注意力机制方法[10]输出的热力图,最后一行是引入CBAM模型后得到的热力图。在热力图中,越是高亮的区域相对应的权重就越大,网络所关注的程度也就越高。在图10(a)所展现的颠球动作中,文中方法与软注意力机制方法都将重点关注的区域放在了足球上面,然而软注意力机制方法所关注区域的位置是在整个足球及其周围的区域,反映出所强调的显著位置相对来说较为发散。而CBAM模型沿着通道和空间两个维度顺次调整模型关注的特征区域,对通道注意力关注的特征加以空间位置的分析,更加精准地突出决定性区域,使得网络所关注的重点区域更为集中。同样对于某些分类出现失误的例子,热力图也直观地展示了问题的所在。观察可知,图10(b)吃的例子中软注意力机制方法出现定位失误,第2行第1列的热力图表明模型所关注的区域并不在吃这个动作上,而是在盛放食物的器皿上。图10(c)所示的拉小提琴示例样本中,虽然模型试图将关注的重点放在了拉动小提琴的动态区域,但同时也把有些无关区域考虑了进来,由第2行第1列和第2行第3列的热力图所呈现,在将小提琴作为关注对象的同时也把旁边出现的两个乐器演奏者作为关注对象。由于出现了多个关注点,所以这将很可能影响模型最终对视频类别的分类。对比软注意力机制方法在以上3个动作示例中输出的热力图,直观来看,笔者提出的方法无论是从模型所关注重点的准确性还是从重点部分的精细度来讲,都有了一定程度的提升。

    为了有效解决仅从通道维度关注视频动态区域时,模型感兴趣区域的范围较为发散而导致无关区域的特征带来的干扰性问题。笔者采用CBAM模块,从通道和空间两个维度引导网络捕获决定视频类别的细节特征,忽略与类别相关性较弱的信息,使得网络能够更合理地对权重进行分配,进而从复杂多变的信息中挑选出对当前动作语义更关键的信息,在不增加模型复杂度的前提下,能够抓住视频图像帧中的关键部分,进一步提升模型的辨识能力。在视频帧预测分类阶段,ConvLSTM弥补了长短时记忆网络丢失的空间结构信息,通过引入卷积操作来利用图像中的空间相关性,实现对视频属性的完整表示。最后,在3个公开数据集上对笔者提出的基于注意力机制的动作识别方法进行了实验验证,并与其他先进算法的实验效果进行对比,表明该网络模型使得动作识别的准确率得到了一定程度的提升。

    猜你喜欢 短时记忆集上卷积 基于长短时记忆神经网络的动力电池剩余容量预测方法大电机技术(2022年4期)2022-08-30关于短文本匹配的泛化性和迁移性的研究分析计算机研究与发展(2022年1期)2022-01-19基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02一种并行不对称空洞卷积模块①计算机系统应用(2021年9期)2021-10-11基于互信息的多级特征选择算法计算机应用(2020年12期)2020-12-31从滤波器理解卷积电子制作(2019年11期)2019-07-04基于傅里叶域卷积表示的目标跟踪算法北京航空航天大学学报(2018年1期)2018-04-20吉林大学考古与艺术博物馆观众短时记忆调查报告文物鉴定与鉴赏(2017年5期)2017-05-16英语听力理解与短时记忆成长·读写月刊(2017年2期)2017-03-21短时记忆理论的影响唐山文学(2016年11期)2016-03-20

    推荐访问:卷积 注意力 识别