• 工作总结
  • 工作计划
  • 心得体会
  • 述职报告
  • 事迹材料
  • 申请书
  • 作文大全
  • 读后感
  • 调查报告
  • 励志歌曲
  • 请假条
  • 创先争优
  • 毕业实习
  • 财神节
  • 高中主题
  • 小学一年
  • 名人名言
  • 财务工作
  • 小说/有
  • 承揽合同
  • 寒假计划
  • 外贸信函
  • 励志电影
  • 个人写作
  • 其它相关
  • 生活常识
  • 安全稳定
  • 心情短语
  • 爱情短信
  • 工会工作
  • 小学五年
  • 金融类工
  • 搞笑短信
  • 医务工作
  • 党团工作
  • 党校学习
  • 学习体会
  • 下半年工
  • 买卖合同
  • qq空间
  • 食品广告
  • 办公室工
  • 保险合同
  • 儿童英语
  • 软件下载
  • 广告合同
  • 服装广告
  • 学生会工
  • 文明礼仪
  • 农村工作
  • 人大政协
  • 创意广告
  • 您现在的位置:六七范文网 > 其它相关 > 正文

    多尺度超图卷积骨架动作识别网络

    来源:六七范文网 时间:2022-12-15 10:45:07 点击:

    秦晓飞,赵颖,张逸杰,杜睿杰,钱汉文,陈萌,张文奇,张学典

    (1.上海理工大学 光电信息与计算机工程学院,上海 200093;
    2.上海宇航系统工程研究所,上海 201109)

    近年来,动作识别已成为计算机视觉领域的一个重要的分支,在人机交互、自动驾驶方面都有着广泛的应用。由于人类行为环境的复杂性,在执行动作识别任务时,经常受到相机移动、遮挡等复杂场景的干扰,限制了直接使用视频进行动作识别的方法的性能。随着深度相机的广泛应用和高性能姿态估计算法的出现,人们可以简单快速地获得人体骨架关节点位置信息。骨架关节点位置信息对于环境的干扰有较强的鲁棒性,因此基于骨架的动作识别算法取得了较好的效果,得到了动作识别领域越来越多的关注。

    基于骨架的动作识别方法包括早期的手工特征设计方法[1-2]和近年来发展的基于深度学习的方法。手工特征设计方法由于其设计复杂、通用性差等原因,现在已基本不再使用。基于深度学习的骨架动作识别方法又分为卷积神经网络(convolutional neural network,CNN)类方法[3-5]和图卷积神经网路(graph convolutional network,GCN)类方法。CNN 类动作识别方法大多使用循环神经网络(recurrent neural network,RNN)[6-8]对骨架帧序列的时间和空间特征进行提取。虽然这类方法能够较好地描述时间维度特征,但对空间维度信息提取能力不足,主要原因是CNN类方法将骨架数据表示为向量序列或2D 网格,不能完全表达关节之间的依赖性,忽略了人体的结构信息。数学上,人体骨架结构可以自然地看作以关节为顶点、以骨骼为边的图(Graph),因此GCN 可以有效地建模人体节点之间的结构信息,从而较好地提取人体的运动信息,虽然GCN 直到近几年才被应用于骨架动作识别,但现已成为基于骨架动作识别任务的主流方法。

    2018 年,ST-GCN[9]首次将GCN 方法应用于骨架动作识别任务。它从时间和空间两个维度来处理骨架数据,较CNN 类的方法取得了长足的性能提升,开创了基于GCN 的骨架动作识别新领域。近三年的很多方法都是针对ST-GCN的改进[10-17]。ST-GCN 使用固定的邻接矩阵来表示人体的物理连接,对非物理连接节点间的互动信息提取能力不足。比如“拍手”这类动作,很大程度上依赖于左右手的互动,但骨架图上两手之间不存在直接的物理连接,ST-GCN 对此类动作识别效果较差。针对此问题,Dynamic GCN[12]提出了一种内容编码网络来自动地学习和更新节点间的连接关系;
    2s-AGCN[13]提出了一种自适应图卷积模块,该模块使用两个嵌入函数生成样本相关的关节点间连接程度C,并添加了一个可学习的邻接矩阵B,最后使用加法操作将原始邻接矩阵A和B,C相加得到一个自适应的邻接矩阵,取得了不错的效果。ST-GCN 只使用关节点坐标序列作为输入,信息来源较单一。针对此问题,ResGCN[11]和2s-AGCN[13]分别提出了三流(节点流、骨骼流和速度流)和双流(节点流和骨骼流)输入的数据预处理方法,增加了模型信息来源,提高了动作识别准确度。

    大多数现有的基于GCN 的动作识别方法使用简单图描述人体连接关系,简单图的边只能连接两个节点,因此基于简单图的GCN 层只能通过邻接矩阵学习节点间的低阶关系。然而,现实生活中人的动作往往需要多个节点相互配合才能完成,基于简单图的GCN 网络需要堆叠多层才能描述这种高阶关系,但多层堆叠会导致过平滑、计算量大等问题。超图是简单图的扩展,超图的边可以连接多个节点,同一个节点可以属于不同的超边。因此将超图引入GCN 动作识别网络可以较好地描述多节点间的关系。Hyper-GCN[18]首次尝试将超图网络引入骨架动作识别领域,构造局部超边和全局超边提取高阶特征信息,并使用超图注意力机制获得相邻节点的不同权值。

    受以上思想的启发,本文设计了一种用于骨架动作识别的多尺度超图卷积网络,主要贡献包括:首先将原始骨骼信息转换为节点序列、骨骼序列、动态序列分别输入多尺度超图卷积网络,形成一个三流网络,提高原始信息利用率;
    其次设计了一个以超图卷积模块为编码器、以超图融合模块为解码器的编解码结构,更好地建模多节点间的空间依赖关系;
    最后基于时间空洞卷积设计了一种多尺度时间图卷积模块,以建模动作的时间依赖关系。

    1.1 动作识别流程

    动作识别的具体流程如图1 所示。整个流程由输入数据预处理、多尺度超图卷积特征提取网络和预测分类三部分组成。对于输入的视频序列,人体关节点的三维坐标信息可由姿态估计算法得出。输入数据预处理部分,对人体关节点三维坐标(x,y,z) 进行转换得到骨骼和动态数据。其中,骨骼可以表示为源关节点指向目标关节点的一个矢量,例如源关节点为v1=(xv1,yv1,zv1)、目标关节点为v2=(xv2,yv2,zv2) 的骨骼可以表示为向量ev1,v2=(xv2-xv1,yv2-yv1,zv2-zv1) 。动态数据表示连续帧之间的运动et1,t2=(xt2-xt1,yt2-yt1,zt2-zt1)。将预处理后的关节坐标、骨骼和动态数据分别输入到三个独立训练的多尺度超图卷积网络中,每个流具有相同的网络结构。Softmax分类器用来获得每个流的分类分数,最后将三个流的分类分数融合起来作为整个网络的预测结果。

    图1 动作识别流程Fig.1 Action recognition process

    1.2 多尺度超图卷积网络概述

    本文提出的多尺度超图卷积网络结构如图2所示。该网络整体上属于一种三阶段的编解码结构U 型网络,输入可以是关节、骨骼或动态数据。编码器部分使用两个本文设计的超图卷积模块(hypergraph convolution block,HCB)逐步减少特征维度,以聚集节点间的高阶信息;
    解码器部分使用两个本文设计的超图融合模块(hypergraph merging block,HMB)逐渐恢复原始骨架尺寸大小;
    编解码器之间采用跳级连接融合同阶段的编码器浅层信息与解码器深层信息。编码器和解码器的每个阶段都采用若干个自适应图卷积模块(adaptive graph convolution block,AGCB)来聚集同尺度特征的相邻节点信息。为了更好地建模输入序列帧间的相互依赖关系,设计了一种基于空洞卷积的多尺度时间图卷积模块(multiscale temporal graph convolution block,MTGCB)对 解码器的输出特征进行处理。图2中模块下面的数字三元组分别表示本模块的输入通道数、输出通道数、时间维度卷积步长。比如编码器第一阶段AGCB 下面的(3,64,2)代表本AGCB 的输入通道数是3(即输入关节、骨骼或动态的三维数据),输出通道数是64,时间维度卷积步长为2。

    图2 多尺度超图卷积网络结构Fig.2 Structure of multiscale hypergraph convolutional network

    1.3 网络模块

    1.3.1 自适应图卷积模块

    多尺度超图卷积网络每个阶段的特征提取模块,本文借鉴了2s-AGCN[13]设计的AGCB,AGCB 的结构如图3 所示。在空间维度骨架数据具有不规则的空间结构,在时间维度骨架数据具有规则的几何结构,因此AGCB 将骨架数据分为时间和空间两个维度进行特征提取。图3中的自适应图卷积网络(adaptive graph convolutional network,AGCN)用来聚集空间维度节点信息,时间卷积网络(temporal convolutional network,TCN)沿时间轴使用3×1 卷积来聚集时间维度节点信息。这两个卷积层后面都有一个批归一化层(batch normalization,BN)和Relu 激活层。此外为了增加AGCB网络训练的稳定性,还使用了残差连接。

    普通图卷积通常使用固定的物理连接关系来表示骨架,但是固定的物理连接缺乏对非相邻关节点依赖关系的建模能力,然而对于某些动作(比如拍手等)非相邻的关节点(左、右手等)间的依赖关系对动作的识别非常重要。针对此问题,图3中的AGCN 部分通过卷积网络学习一个自适应邻接矩阵。不同于固定的物理连接,图的拓扑结构随着网络和参数一起优化,大大提高了模型的灵活性。依据输入数据的多样性,模型可以自适应地学习节点之间的拓扑结构。在动作识别任务中,骨架被定义为图G=(V,E,A),其中V表示关节点的集合,E表示边的集合,A∈RN×N表示骨架图的邻接矩阵,骨架图的特征由(C,T,N) 的张量表示,其中C表示通道数,T为时间长度,N为关节点数量,则AGCN 可表示为

    图3 自适应图卷积模块Fig.3 Structure of adaptive graph convolution block

    1.3.2 超图卷积模块

    人体动作是复杂多样的,像跳跃、站起、拍手等动作都需要多对关节点相互协调才能完成,因此建模多对关节点之间的高阶依赖关系对骨架动作识别任务至关重要。基于简单图的GCN,无论其图结构是固定的还是自适应变化的,都很难描述这种多对关节点之间的高阶依赖关系。为此,本文将超图引入骨架动作识别任务,设计了一种编解码结构的多尺度超图卷积网络。编码器部分使用了两个超图卷积模块HCB 来进行超边的融合,图4 给出了本文设计的HCB 在NTURGB+D 和Kinetics 两个数据集上的超边融合分配策略。由于超边可以包含多个关节点,超图卷积是对超边内多个关节点之间信息的聚合,因此HCB 能够更好地建模多对关节点之间的依赖关系,加快关节点信息聚合的速度。HCB的计算过程如下。

    图4 超边融合的分配策略Fig.4 Allocation strategy for hyperedge merging

    首先定义超图的表示为G=(V,E,Q),其中V表示关节点的集合,E表示超边的集合,Q表示超图卷积的关联矩阵,Q∈RN×M。本文解码器中两个HCB中用到的Q可分别根据图5 所示的两层超边融合分配策略得到,当超边 εj连接节点vi时,则Qij=1,否则Qij=0 。超图卷积利用关联矩阵来聚集超边内多个关节点间的信息。

    图5 多尺度时间图卷积模块Fig.5 Structure of multiscale temporal graph convolution block

    为了防止超边多次融合后信息爆炸,本文使用标准化超图连接,即通过归一化使节点的最大连接度不大于1,对于N个节点和M个超边的超图,其标准化超图连接度的计算方法如下:

    式中:Dv∈RN×N是对角化超图节点度矩阵,其对角元素表示该节点连接超边的个数;
    Dε∈RM×M是对角化超图超边度矩阵,其对角元素表示该超边内节点的个数;
    Wε表示超图超边之间的权重矩阵。类似图卷积定义的方式,本文利用标准化超图连接H与超图关联矩阵Q的矩阵乘积作超图卷积操作,可得HCB 的计算公式如下:

    1.3.3 超图融合模块

    HCB 使空间维度的特征图变小、感受野增大,解码器部分需要恢复特征的空间分辨率。图像领域通常用反卷积和反池化等上采样方法获取更高分辨率的特征图,然而这些方法并不适用于没有规则空间结构的图网络。为此,本文基于HCB 的一种逆运算,设计了一种超图融合模块HMB。HMB 的主要作用有两点:(1)编码器部分进行HCB 操作后,图的空间维度变小,这意味着如果不进行上采样操作,同阶段解码器部分的图的空间维度将无法与编码器特征对齐,从而无法通过跳级连接进行特征融合。所以HMB 的第一个作用是使编解码结构同阶段的空间特征图的维度对齐;
    (2)HMB 可以学到人体不同部分(即不同超边)的重要性,例如拍手动作,人的手这部分的重要性比较高,HMB 可通过权重参数对人的手所涉及的关节点进行加权增强。

    类似图卷积定义的方式,本文利用标准化超图连接H与超图关联矩阵QT的矩阵乘积作超图卷积操作,可得HMB 的计算公式如下:

    对于编解码结构的同一阶段,编码器部分输出的特征包含丰富的细节信息,解码器部分输出的特征包含丰富的高阶信息,融合两部分的特征可为后续动作识别分类提供更丰富的信息。为此,本文采用跳级连接和逐元素相加对编解码器的特征进行融合。

    式中:fout为融合后的特征;
    fHMB为HMB 的输出特征;
    fAGCB为同阶段编码器自适应图卷积模块的输出特征。

    1.3.4 多尺度空洞图卷积模块

    HCB 和HMB 在空间维度获得了更大的感受野,但缺乏对时间维度信息的描述。虽然AGCB中的TCN 操作使用了3×1 卷积来聚集时间维度节点信息,但本文提出的多尺度超图卷积网络层数较少,其中仅包含8 个AGCB,在时间维度上的建模能力是有限的。有些方法[19]为了获得时间维度上较大的感受野将卷积核扩大,但这样会导致计算量大大增加。针对此问题,本文在AGCB 的基础上,设计了一种多尺度时间图卷积模块MTGCB,其结构是使用图5所示的通道分离多尺度空洞卷积模块代替图3 所示AGCB中的TCN 模块。

    MTGCB 首先使用AGCN 对输入特征的空间维度信息进行聚合,之后将AGCN 输出的特征按通道维度平均分成4 份,即图5中所示的通道分离操作,这样可以减少模块的计算量。然后不同分支采用 1 ×1 卷积进行通道信息融合,使用空洞率分别为1、2、3、4 的 3 ×1 空洞卷积获得不同时间跨度的运动信息。最后将不同分支提取的特征级联起来给最后的动作分类网络使用。

    本部分在NTU-RGB+D[20]和Kinetics[21]两个大规模动作识别数据集上验证本文提出的多尺度超图卷积网络(multiscale hypergraph convolutional Network,MHCN)。

    2.1 数据集

    NTU-RGB+D[20]是一个著名且广泛使用的动作识别数据集,由56 880 个动作剪辑、60 个动作类和4 000 000 帧组成,包括日常动作、互动动作和与健康有关的动作。他们邀请了40 名志愿者进行数据收集工作。3 个相同高度不同水平视角的深度摄像机同时捕捉同一动作,3 个深度摄像机的水平视角分别为45°、0°、-45°。数据集包含每个志愿者25 个关节点的3D 位置。每个视频中最多包含2 个人。NTU-RGB+D 数据集通常使用CS 精度(Cross Subject Accuracy)和CV精度(Cross View Accuracy)来评价模型性能。

    Kinetics[21]是一个大规模且重要的人体动作识别数据集,包括30 万个YouTube 视频剪辑,共有40 个动作种类。视频剪辑分为训练集(240 000个剪辑)和验证集(20 000 个剪辑)。数据集使用OpenPose[22]姿态估计算法得到人体骨架序列,每个人有18 个关节点,每个关节点由其在像素坐标中的二维坐标(x,y) 及其置信度得分s组成,最终表示为(x,y,s) 。Kinetics 数据集通常使用TOP1 和TOP5 精度来评价模型性能。

    2.2 实验细节

    模型是使用PyTorch 框架搭建的,使用交叉熵作为损失函数,优化方法采用带惯量的梯度下降,惯量系数为0.9,权重衰减系数0.000 1,批量大小为64。对于NTU-RGB+D 数据集,每个序列最多包含2 人,当人数不足2 人时,使用0 填充操作将输入数据扩充为2 人。另外该数据集的每个序列最多包含300 帧,当帧数少于300 帧时,使用重复填充将其扩充为300 帧。初始学习率设置为0.1,在第30 个epoch 和第40个epoch 时下降至0.01,共训练60 个epoch。对于Kinetics 数据集,每个序列包含150 帧,每帧中包含2 个人体骨架。初始学习率设置为0.1,在第45 个epoch 和第55 个epoch 时下降至0.01,总训练次数同样为60 个epoch。

    2.3 消融分析

    为了验证本文所提出的各模块的有效性,在NTU-RGB+D 数据集上进行消融分析。首先验证本文所提出的HCB 和HMB 的有效性,为了进行公平的比较,本文在2s-AGCN 基础上,通过修改输入为三流,修改2s-AGCN 最后一个AGCB为MTGCB,得到基准算法。然后在基准算法基础上逐渐添加10 节点的HCB、HMB 和5 节点的HCB、HMB。实验结果如表1 所示。表1中+ε10代表 在Baseline的第3 个AGCB 之后添加一个HCB,在第6 个AGCB 之后添加一个HMB,并使用跳级连接进行特征融合;
    +ε5代表在Baseline 的第4 个AGCB 之后添加一个HCB,在第5 个AGCB 之后添加一个HMB,并使用跳级连接进行特征融合。从表1 结果可知,添加HCB 和HMB 后,网络性能有所提升,说明HCB 和HMB 能够有效地融合超边内的多对关节点之间的信息。

    表1 HCB 和HMB 的消融分析Tab.1 Ablation study of HCB and HMB

    为了验证不同骨架输入数据对结果的影响,本文使用所设计的多尺度超图卷积网络分别进行了多种单流、两流、三流对比实验,实验结果如表2 所示。表2中的w/o 表示“没有”的意思,比如w/o 骨架表示三流中除去骨架流,只剩下关节和动态两流输入。从表2 可以看出,两流的方法比单流方法效果好,三流方法比两流方法效果好,这表明每个输入数据分支对模型性能提高都是必要的。从“w/o 动态”两流方法的结果可知,去掉动态输入流后模型精度降低了1.9%,性能下降非常明显,这表明本文添加的动态输入流数据中包含了很多具有动作分辨力的信息。

    表2 不同骨架输入数据对结果的影响Tab.2 Comparison of results obtained via different skeleton input data

    为了验证MTGCB中不同空洞率的效果,本文进行了不同空洞率组合的实验,表3 列出了实验结果。如表3 所示,当4 个分支的时间空洞率都设置为1 时,MTGCB 就退化成了AGCB;
    增大4 个分支的时间空洞率可以增大时间维度的感受野,从而提高模型的表现,但当空洞率大于3 时,模型表现开始下降,这说明不同时间空洞率都能够提取一定的动作信息。本文所提方法在MTGCB 4 个分支上分别使用不同时间空洞率,并将4 个分支的结果通过级联融合,从而可以提取多种时间尺度上的动作信息,如表3所示,达到了最优的效果。

    表3 不同空洞率下模型的表现Tab.3 The performance of models with different dilation factors

    图6 所示为本文算法在NTU-RGB+D 数据集上的学习曲线,其中左y轴表示的是训练精度,右y轴表示的是训练损失。由图6 可知在训练过程中,随着epoch 的增加,模型的训练精度逐渐提高,训练的损失则逐渐减少。

    图6 多尺度超图卷积网络在NTU-RGB+D 数据集上的学习曲线Fig.6 Learning curve of multiscale hypergraph convolutional network on NTU-RGB+D dataset

    2.4 对比实验

    为了验证所提方法的优越性,将多尺度超图卷积网络MHCN 和当前主流的骨架动作识别方法在NTU-RGB+D 和Kinetics 数据集上进行比较。表4 和表5 分别给出了各模型在NTU-RGB+D和Kinetics 数据集上的表现。相较于当前最优模型,MHCN 在NTU-RGB+D 数据集上,CS 精度提高了1.1%,CV 精度提高了0.9%;
    MHCN 在Kinetics 数据集上,TOP1 精度提高了1%,TOP5精度提高了1.7%。

    表4 在NTU-RGB+D 数据集上与最新方法的比较Tab.4 Comparison with state-of-the-art methods on the NTU-RGB+D dataset

    表5 在Kinetics 数据集上与最新方法的比较Tab.5 Comparison with state-of-the-art methods on the Kinetics dataset

    骨架动作识别任务中,简单图不能很好地建模多个关节点之间的高阶信息,为此本文将超图引入骨架动作识别任务,设计了以超图卷积模块为超边融合算法、以超图融合模块为骨架尺寸恢复算法的编解码结构多尺度超图卷积骨架识别网络。该网络同时将关节、骨骼、动态三流数据作为输入以充分利用输入信息。该网络中的多尺度时间图卷积模块,使用不同的时间空洞率提取不同时间跨度的动作信息。消融分析验证了本文所提各模块的有效性,对比实验验证了本文所提方法的优越性。

    猜你喜欢 骨架卷积尺度 基于全卷积神经网络的猪背膘厚快速准确测定农业工程学报(2022年12期)2022-09-09环境史衰败论叙事的正误及其评判尺度社会科学战线(2022年7期)2022-08-26基于图像处理与卷积神经网络的零件识别计算技术与自动化(2022年1期)2022-04-15浅谈管状骨架喷涂方法电子乐园·上旬刊(2022年5期)2022-04-09汽车用减震件过盈配合骨架装配模具及装配技术电子乐园·上旬刊(2022年5期)2022-04-09“超级大陆”发现新物种完整骨架发明与创新·大科技(2020年6期)2020-06-22基于深度卷积网络与空洞卷积融合的人群计数上海师范大学学报·自然科学版(2019年5期)2019-12-13周博士考察拾零(六十六)日光温室前屋面开机具作业门处骨架的处理方法农业工程技术·温室园艺(2017年3期)2017-07-13卷积神经网络概述中国新通信(2017年9期)2017-05-27以长时间尺度看世界中国信息化周报(2015年1期)2015-04-09

    推荐访问:超图 卷积 骨架