基于特征融合和自注意力机制的水下目标识别

徐承，李勇，张梦，汪小斌，方磊

（合肥讯飞数码科技有限公司，安徽合肥 230088）

近年，水声目标识别技术作为一个重要的热点方向被广泛研究。水声目标识别任务因其复杂性成为长期攻而不克的技术难题，主要原因有：1）水声目标识别需求的是从船舶的功能或用途来分类，如专用船舶、商船，而技术分类只能从其辐射噪声的差异来进行，存在可分性问题；
2）船舶工况复杂；
3）海洋环境对船舶辐射噪声特征具有重要影响；
4）目标的主动隐藏特性使得识别特征数据库建立困难；
5）声纳信息获取能力先天不足；
6）对抗性使问题进一步复杂化[1]。

水下目标识别（Underwater Acoustic Target Recognition，UATR）任务可以分为基于主动声纳的目标识别任务和基于被动声纳的目标识别任务，本文将基于被动声纳获取的目标辐射噪声开展相应的UATR 研究工作。水下目标辐射的噪声主要由机械噪声、螺旋桨噪声和水动力噪声共同组成，需要通过分析声源属性，提取目标的固有特征，进而进行分类识别。基于传统的UATR 方法获取到的特征表达能力不足，导致模型识别率低，泛化性和鲁棒性整体表现较差，因此研究如何提升UATR 效果是非常必要的。

针对上述问题，本文提出一种基于注意力机制的多特征融合网络模型识别方法，通过引入基于数据驱动的无监督学习特征弥补传统低频线谱[1]（Low Frequency Analysis Record，LOFAR）和梅尔频率倒谱系数（Mel Frequency Cepstral Coefficients，MFCC）特征在场景失配下的不足。首先基于注意力机制获取多种特征的权重，在特征空间维度进行加权融合，获得表征能力更强的融合特征，然后使用Transformer 结构对不同时刻的融合特征相互计算注意力得分，进而完成隐空间特征的提取。通过实验证明本文方法取得较好的目标识别准确率。

水下目标识别任务一直以来是各国研究的重点工作，近30 年来，随着信号处理、人工智能技术的不断发展，UATR 技术不断得到发展，主要分为传统的UATR 技术和基于深度学习的UATR 技术[1]。

传统的UATR 技术将整体任务主要分成特征选择和分类器设计两个部分，且特征选择技术被认为是UATR 任务中更为重要的部分。传统的UATR 技术中特征提取的方式多种多样，其最主要的特征提取方式是获取目标信号的谱特征，整体可分为2 类，即物理意义明确的特征量和具有统计意义的特征量。物理意义明确的特征有：螺旋桨转速、桨叶数、推进器类型等特征，具有统计意义的特征有：谱中心、谱带宽、谱形等[1]。邱政[2]等人利用小波变换进行调制谱（Detection of Envelope Modulation on Noise，DEMON）融合获取更为明显的线谱，再通过频域周期法最终提取到可靠的线谱。Jiang[3]详细分析了水声目标数据的过零率、谱中心、MFCC 等多种特征在水声数据中的应用，对每种特征的表现进行可解释性分析和整体分布对比统计，并在分类识别任务上验证工作。传统的UATR 的分类器设计主要有：模板匹配、近邻分类器、支持向量机等方法[1]。传统的UATR 技术可以获取到具有可解释性的特征，针对在一定条件下获取到的数据可以提取出具有区分性的特征，但是由于不同海域的背景噪声不同、海底地形不同导致不同的多途效应、专用船舶隐身技术的发展等因素，使得基于传统方法难以获取到有效的线谱特征，导致整体系统泛化性和鲁棒性表现较差。

由于传统UATR 技术的不足，基于深度学习方法的UATR 技术不断被提出，且取得了较好的效果[4]。Hu[5]使用卷积层作为特征提取器，后端连接极限学习机构建整体的网络结构，将得到的结果与传统的MFCC 和希尔伯特-黄系数特征（Hilbert-Huang Feature）进行对比，所提出的网络结构得到了更好的识别准确率。王升贵[6]等人采用CNN网络对目标辐射噪声的LOFAR 谱图进行分类识别，一定程度上解决传统水下目标识别依赖先验知识问题严重、识别率较低的问题。张健[7]首先研究了基于MFCC 特征的传统UATR 方法，同时采用基于谐振的稀疏信号分解方法获取更为纯净的高谐振分量信号。针对UATR 的小样本问题，曹[8]提出一种深度卷积孪生网络，采用目标辐射噪声数据所提取出的DEMON 谱特征进行分类识别，在不同多普勒频移和信噪比加噪的数据上验证分类识别效果（但该方法需构造大量复杂正负样本对，且DEMON 谱中主要含有的信息为目标轴频和桨叶数信息，可区分性信息较少，在复杂海洋环境场景下表征性受限）。Sang[9]针对水下目标识别任务，提出了一种稠密卷积网络模型，利用不同网络层提取出的特征，文中通过与支持向量机、K 近邻算法等多种传统机器学习算法，以及CNN-ELM、ResNet18 等多种深度学习算法进行对比，验证所提算法的有效性。Yang 等人将深度长短时记忆网络和深度自编码网络结合起来，使用数据进行无监督训练，将高维数据压缩到更紧凑的隐空间中，在完成自编码网络的训练之后，使用全连接层替换掉网络中的解码部分构成最终的网络结构，最后使用数据对网络进行训练获取到最终的模型，验证了方法的有效性[10]。Luo 等人提出基于受限玻尔兹曼机和全连接网络相结合的网络结构形式进行UATR 任务，通过受限玻尔兹曼机构建自编码网络的构建，在网络充分训练之后使用全连接层替换掉自编码网络中解码部分，形成网络的最终结构形式[11]。Jin 等人针对小样本问题，使用生成对抗网络完成数据的增广，提高模型的识别效果[12]。Xiao等人基于注意力机制搭建了深度神经网络，使用低频段的频谱数据作为网络的输入特征进行分类识别工作，最后对网络中输入特征的不同频率分量的注意力权重进行可视化分析，以分析不同频率点对整体网络分类效果的贡献[13]。Luo 等人采用多窗谱图分析方法，解决传统时频分析方法难以同时提取多个信号特征的问题，将多窗获取的不同分辨率的谱图作为分类器的特征，并使用对抗生成网络进行数据增广，得到较高的识别效果[14]。

目前传统的目标识别方法主要利用基于具有物理含义的谱特征和经典声学特征，并已证明其有效性，但此类特征一般是建立在一定假设的基础之上，在假设条件不成立时会导致失配。大量的研究表明特征融合的方式可以得到更加全面的数据表示，进而获取到更具代表性的空间特征[15-17]，因此本文引入对比预测编码（Contrastive Predictive Coding，CPC）无监督特征并与LOFAR、MFCC 特征使用自注意力机制进行融合，提升对数据的整体表征能力。同时考虑到水声目标信号是时序信号，不同时刻的特征之间存在一定的相关性，本文引入基于Transformer 结构的ViT（Vision Transformer）网络对水声数据在时间维度上进行特征整合，达到抑制噪声信息干扰、提升弱信息表征能力的目的，从而提升识别系统的整体性能[18]。

LOFAR 谱作为UATR 任务的传统特征被广泛应用，其线谱具有明确的物理意义，不同目标的LOFAR 谱不同，具有较好的可区分性，声呐员经过训练后，可以通过人耳听声对目标进行识别。MFCC 作为一种可以较好地模拟人耳响应的经典声学特征被广泛地应用到语音识别任务当中，也被应用到UATR 任务当中。CPC 特征作为一种无监督特征被成功应用到自然语音处理、图像识别、语音识别领域，该方法是将高维信号压缩到更加紧凑的隐空间中，在抽取高维信号不同部分的基础共享特征的同时，丢弃掉更底层的低级信息和噪声，获取到数据中更具表征性的信息。本文基于无监督学习的CPC 特征，结合传统LOFAR 谱和MFCC 经典声学特征，引入注意力机制，获取鲁棒性更强的弱信息识别特征

2.1 LOFAR谱

LOFAR 谱是一种在短时傅里叶变换基础之上产生的特征。该特征可反映信号非平稳特性，常被声呐员用于判断目标是否存在以及判断其目标类型，其主要由离散的线谱和连续谱组成。由于其线谱具有显著的声源信息且信噪比较高，被广泛应用到UATR 任务当中[7]。LOFAR谱提取具体包括以下几个步骤。

（1）分帧。由于水下目标信号具有非平稳特点，需先将音频数据分帧，分帧后获取的较短时间长度的音频可假设处于稳定状态，分帧长度需包含信号的周期信息。每帧数据之间应有一定的数据重叠，可根据任务特点确定分帧及相邻帧之间的重叠长度。

（2）去均值。对每帧信号去除均值的影响，以消除声纳在录制过程中产生的直流分量。

（3）幅值规整。幅值规整即将数据规整到[-1,1] 范围内，使得接收到的信号幅度（或方差）在时间维度上分布均匀。

（4）加窗。由于对截取数据直接采用FFT 算法易导致能量泄露问题，故采用加窗算法，可使得信号两端幅值平滑趋向于零，常采用以下窗函数：汉明窗、海宁窗等[6]：

（5）傅里叶变换。即对加窗后的信号进行FFT 变换。

（6）求对数谱。该步骤可选，通过计算获取到的频谱数据幅值的对数值，相对降低频谱数据中的高幅值部分，使频谱能量分布更为紧凑。

2.2 MFCC特征提取

MFCC 特征是一种能够较好模拟人耳响应、被广泛用于解决语音识别问题的特征，该特征同样也可应用于UATR 任务中[7,16]。当低于1 000 Hz 时，人耳对于频率的响应呈线性关系，当高于1 000 Hz 时呈对数关系。Mel 频率尺度从该角度出发，可整体性描述人耳听觉感知关系，从而推出Mel 频率与人耳感知频率之间的线性映射关系，并进一步设计Mel 滤波器组。首先，通过使用Mel 滤波器组中不同的三角滤波器计算出其对应频率区间内的能量总和；
其次，取对数并按照Mel 滤波器组中各个滤波器的排列顺序拼接为向量；
最后，通过离散余弦变换（Discrete Cosine Transform，DCT），即可得到MFCC 特征。

MFCC 特征提取过程中分帧信号、加窗和FFT 步骤同LOFAR 谱中对应一致，其关键内容在于采用设计的Mel 滤波器组对傅里叶变换之后的频率数据进行加权求和的过程。使用Meli表示Mel 滤波器组中第i个滤波器，可得到该滤波器下的能量Ei[19]：

获取Mel 能量谱之后，对其进行离散余弦变换，即可得到MFCC 系数：

其中，r表示MFCC 系数的阶数。

2.3 CPC无监督特征

CPC 网络是一种无监督学习算法模型，该算法将高维数据中不同部分的基础共享特征进行抽取的同时，还可对低级信息和噪声起到一定的抑制作用，最终该网络将基础共享特征压缩到更加紧凑的低维度的隐空间中[20]。CPC 网络的结构如图1 所示：

图1 CPC网络结构

CPC 特征提取的步骤如下：

（1）分帧。对音频数据按照一定的窗长进行分帧。

（2）特征提取。CPC 网络中使用CNN 结构的编码器（CNN Encoder）进行特征提取，得到不同时刻帧的特征ft。

（3）构建上下文表示。按照一定规则选择时间t，进而将该时刻及其之前的特征送入自回归模型GRU 网络中，最终构建出t时刻的上下文表示Ct。

（4）预测。根据设定的时间步长，使用Ct预测t时刻之后固定时间步长之内的特征表示。

（5）网络更新。通过上述4 个步骤完成CPC 网络的前向计算过程，通过上下文表示预测出的特征与使用编码器提取的特征进行对比，计算得出损失值，完成参数更新。

2.4 基于注意力机制的特征融合

典型的声学特征建立在一定的假设基础之上，由于水声环境极其复杂，在环境失配的条件下，表现效果较差。鉴于此，本文基于CPC 特征，融合LOFAR 谱和MFCC 传统经典声学特征的优点，引入注意力机制，通过网络结构自适应的模式实现三种特征有效信息的提取与融合，获得表征能力更强的融合特征，从而提升后端识别网络的识别性能

LOFAR、MFCC 和CPC 三种不同的特征所包含的信息可以相互补充，提升对数据的整体表征能力，但每种特征中会包含冗余信息，可通过注意力机制对冗余信息进行抑制并增强有用信息。本文采用基于注意力机制的特征融合模块完成三种特征有效信息的抽取和融合，其模块结构如图2 所示。其中LOFAR 特征和CPC 特征都是768 维，而MFCC 特征是13 维，为保证特征维数相同，通过将MFCC 特征进行复制拼接，得到768 维的MFCC 特征。

图2 基于注意力机制的特征融合模块结构图

具体融合流程如下：

（1）对三种特征经过结构相同的特征权重提取网络完成特征点权重向量提取，特征权重提取网络主要由2 个CNN 网络层和1 个Softmax 组成。第一个CNN 网络层为8 个单通道的1×1 大小的卷积核，将特征映射到不同的8个特征空间中，以充分挖掘原特征中的信息；
第二个CNN网络层为1 个8 通道的1×1 大小的卷积核，该网络层对获取到的多通道特征进行整合，压缩到一个通道中；
再使用Softmax 对整合的特征中每个特征点计算其对应得分，得到三种特征对应的权重向量。特征权重向量中每个位置的得分代表对应原特征中的特征点对整体网络的贡献。

（2）用特征权重向量与原始特征的对应位置相乘，得到基于注意力机制加权的特征。该特征可有效地将注意力集中到原始特征中有用的特征信息，同时抑制噪声信息，加快网络的收敛速度，提升网络的整体效果。

（3）使用包含2 个CNN 层的网络对加权特征进行融合。第一个CNN 网络层为8 个3 通道1×1 大小的卷积核，主要用于将不同加权后的特征进行融合后映射到8 个不同的特征空间，再使用1 个8 通道1×1 大小的卷积核进行特征融合，得到最终的LOFAR、MFCC 和CPC 融合特征。

针对UATR 任务，不同类别目标数据中含有特定的特征信息，同时也包含大量的无关信息，通过注意力机制可以获取重点需要关注的特征点，从而加快网络的收敛速度，提升网络的整体效果。在得到LOFAR、MFCC 和CPC 融合特征后，本文采用基于Transformer 的网络结构的ViT 模块进一步在时间维度上对不同帧特征进行相关性计算和深度特征融合，最终构建水声特征空间到类别空间的映射关系，完成目标识别任务。

3.1 ViT网络

ViT 网络是Transformer 结构在图像领域中的成功应用，通过将图像不同位置的区域块输入Transformer 的编码器部分，计算图像不同部分之间的注意力得分，完成不同空间数据的特征提取和融合，再使用全连接层完成分类任务。ViT 网络利用自注意力机制捕获图像特征中的长距离依赖关系，使得提取的特征中考量了所有图像区域的特征信息，获取到全局信息。鉴于水声数据是时序数据，可基于ViT 网络并行对数据中不同时间维度的特征计算相关性，进而得到更具表达能力深层次的表征信息。

根据ViT 网络特点，本文中ViT 模块的输入为水声数据所提取每帧的768 维融合特征，将其类符号向量拼接后再与帧位置编码相加，可得到编码模块（Encoder block）的输入数据。先通过编码模块对数据计算注意力得分并完成特征融合，再经过全连接层得到分类结果。

3.2 基于注意力机制的特征融合的ViT网络

水声识别网络架构的设计需要在提取数据基础特征的同时，构建具有分类意义的弱特征提取机制，其本质是建立数据表征信息的抽取和分析能力。不同特征的表征方式，分别建立在不同的假设的基础上，因此单一类型的特征形式对于复杂的水声数据难以全面获取到具有分类意义的表示信息，若选择的网络模型与水声特征之间存在失配，则难以构建水声特征到类别之间的映射关系。本文在分析水声数据特点的基础上，提出基于注意力机制的特征融合的ViT 网络结构（FFVNAM，Feature Fusion ViT Network based on Attention Mechanism），采用多种不同领域的特征补充单一领域特征的表征局限性问题，同时考虑特征与模型之间的适配性问题，引入Transformer 构建水声识别网络架构，在时间维度上对不同特征之间的相关性进行计算及融合，使得特征与网络模型之间更加适配。整体网络结构如图3 所示。

由图3 可知，将每帧水声数据的三种不同特征采用注意力机制进行特征融合，可得到更具表征性的融合特征。该操作是在特征维度进行，帧间特征信息不共享。所获得的融合特征，既能提取并结合帧内不同特征的有效信息，又能抑制对分类效果产生干扰的噪声信息。

图3 基于注意力机制的特征融合的ViT网络结构图

虽然不同帧的融合特征可抽取出对应帧数据的特征信息，但并不包含帧之间的时间位置信息，所以，可通过将帧位置编码向量加入到融合特征中以获取到时间信息，从而丰富融合特征携带的信息量。此外，采用自注意力机制计算不同时间特征的相关性，从时间维度建立不同时刻间的特征提取机制，通过对特征不同层面的分解和融合，实现识别效果的整体提升。通过将特征融合模块和识别分类模型进行整合，完成特征融合模块中参数的自动更新，有效解决特征与分类模型之间的失配问题。

由于网络模型的复杂度主要受网络深度影响，故本文模型的复杂度由编码模块的数量决定。即编码模块数量越多，模型的拟合能力就越强。但是，由于水声目标数据集有限，数量过多的编码模块易导致过拟合现象，经过实验确定，当编码模块和多头个数均为2 时，既能保障模型具有强拟合能力，同时一定程度上避免模型的过拟合现象。

本文基于真实水声数据开展相关实验。首先，将CPC模型在水声领域训练集上完成训练任务，训练完成后得到的CPC 网络可对输入的水声数据提取对应的CPC 特征。其次，分别使用LOFAR 特征、MFCC 特征和CPC 特征在ResNet32 和ViT 网络上分别进行训练和测试，通过测试集结果对比，即可验证Transformer 结构在UATR 任务上的适用性以及高效性。最后，分别使用单特征和融合特征在ResNet32 和FFVNAM 网络上进行实验，通过对比实验结果，验证融合特征和FFVNAM 网络结构的有效性。

4.1 实验数据说明

本数据集综合近几年在不同海域录制的数据，数据样本涵盖的声纳类型、录制海域、采样率、格式等均不尽相同。本次任务将所有数据集分成三种类别：A 类、B 类和C 类。其中A 类为商船，B 类为渔船，C 类为专用船舶。每种类别的数据中涵盖多种用途的船舶辐射噪声数据。例如，A 类数据为商船类型，包括散货船、油船等类型。

本文中，将每个音频样本的录制时间分割为4 s，不同样本之间的数据相互独立，每个场景下录制的样本数范围为15 到100 条。首先，需将数据格式和采样率统一为：数据格式wav，采样率16 k/16 bit；
其次，将数据集随机打乱顺序，并按8:2 比例划分为训练集和测试集，其中训练集和测试集中一般存在同源样本数据。各类别数据具体分布情况如表1 所示：

表1 数据集分布情况表

4.2 实验内容及结果分析

为验证上述融合特征方案的合理性与先进性，针对UATR 任务，首先基于传统特征来验证确认后端识别网络的先进性，然后基于确定的后端识别网络来对比融合特征的创新性与先进性。设计以下实验：（1）基于传统特征的VIT 后端识别网络对比验证；
（2）基于融合特征的改进型VIT 后端识别（FFVNAM）网络对比实验。

（1）基于传统特征的VIT 后端识别网络对比验证

本节采用LOFAR、MFCC 和CPC 特征在ResNet32和ViT 网络分别进行实验，不仅验证了基于Transformer结构的ViT 网络的有效性，此外还验证了CPC 特征的有效性。实验中所用数据采用4.1 节中介绍的数据集。

首先，使用训练集完成CPC 网络的训练工作，训练参数设置批量大小为64，训练代数为400 代，测试集在最优模型的识别准确率为93.95%。

其次，针对每个样本数据采用1 s 窗长和0.032 s 窗移获取每帧数据，并分别提取LOFAR、MFCC 和CPC特征，实验结果如表2 所示：

表2 各单类型特征分别在ResNet32和ViT网络上的实验结果对比

通过表2 可看出，基于CPC 特征在ResNet32 和ViT网络上均表现出较高的识别准确率，表明了CPC 特征在UATR 任务中的适用性和有效性。CPC 特征在ResNet32和ViT 网络中的识别率基本相同。但是，采用LOFAR 特征在ViT 网络上的准确率比在ResNet32 网络上高5.45个百分点，采用MFCC 特征则高2.25 个百分点，该实验结果说明了ViT 网络的相对先进性。

图4 显示了测试集在每组实验上的准确率曲线：

图4 各组实验对应的测试集准确率曲线图

从图4 中可以看出，当使用MFCC 特征时，ViT网络的准确率曲线相对优于ResNet32 网络；
当使用LOFAR 特征时，ViT 网络的准确率曲线不仅明显高于ResNet32 网络，且具有更好的稳定性；
当使用CPC 特征时，ViT 和ResNet32 网络均表现出较高的准确率，且网络模型迭代到约40 次时基本达到收敛，进一步证明了CPC 特征在UATR 领域的优越性。

此外，基于LOFAR 特征的ResNet32 网络在训练过程，准确率曲线出现大幅振荡，其主要原因在于水声数据缺少。模型在学习过程中，当验证数据与训练数据匹配时，精度较高，失配时则会显著下降，造成训练过程中的强烈抖动现象。

（2）基于融合特征的改进型VIT 后端识别（FFVNAM）网络对比实验

本节通过单类型特征和融合特征之间的对比实验，验证基于LOFAR、MFCC 和CPC 特征的融合特征的有效性，并再次验证了本文提出的FFVNAM 网络相对ResNet32网络结构表现更优。具体实验结果如表3 所示：

表3 分别采用融合特征及单类型特征在不同网络结构下的实验结果对比

由表3 前4 组实验可知，本文基于特征融合的网络架构FFVNAM 网络的识别率为99.60%，比ViT 网络中采用单类型特征的最优效果绝对提升了1.2%；
对比后2组实验，在均使用融合特征的条件下，FFVNAM 网络的准确率比ResNet32 网络高0.4 个百分点，进一步证明了本文提出的FFVNAM 网络结构的有效性。

5 组实验在训练过程中，测试集的准确率曲线变化如图5 所示。

由图5 可知，基于特征融合的ResNet32 网络准确率曲线在整个过程中振荡剧烈，主要原因在于：融合特征受到LOFAR 特征影响，易降低网络稳定性。

图5 各组实验对应的测试集准确率曲线图

基于Transformer 结构的ViT 和FFVNAM 网络在迭代到40 代时基本已达到收敛状态。当迭代次数大于40时，基于FFVNAM 网络的准确率始终高于其他组，表明FFVNAM 结构具有有效性及较强的鲁棒性。

为提升对水声数据的特征表达，解决传统特征在复杂场景下的失配问题，本文提出一种基于注意力机制的多特征融合算法，该方法利用特征空间信息，使用注意力机制获取到每个特征中各分量对于有效特征的贡献得分，获取更具表征性的融合特征，基于该融合特征能够获取到较好的识别效果。同时从时间维度考虑，引入Transformer 结构以充分利用数据中不同时刻间特征的相关性，实现全局信息共享，加快了模型的收敛速度并提高了模型的稳定性，有效提升了UATR 任务的识别率。

尽管通过本文算法可整体提升实验效果，但仍有如下问题有待深入研究：1）文中使用的训练集和测试集存在同源问题，但实际场景中，获取的数据样本涵盖的声纳类型、录制海域、目标工况不尽相同，易导致测试数据与训练数据不匹配，影响实际应用效果；
2）随着降噪隐身技术的发展，目标辐射噪声信号被海洋环境噪声淹没，在此场景下如何从其中提取出有效的信息表征有待深入研究。

猜你喜欢水声注意力特征让注意力“飞”回来小雪花·成长指南(2022年1期)2022-04-09黄昏的水声北方文学(2020年22期)2020-09-08有些水声，像乡音福建文学(2019年12期)2019-08-06抓特征解方程组初中生世界·七年级(2019年5期)2019-06-22A Beautiful Way Of Looking At Things第二课堂(课外活动版)(2016年2期)2016-10-21暮饮扬子江(2016年1期)2016-05-19水声悠远扬子江诗刊(2015年5期)2015-11-14春天来啦(2则)小学生作文辅导·看图读写(2009年5期)2009-06-11抓特征猜成语阅读(中年级）(2009年11期)2009-04-14阅读理解两则中学英语之友·高一版(2008年10期)2008-12-11

推荐访问:水下注意力融合