• 工作总结
  • 工作计划
  • 心得体会
  • 述职报告
  • 事迹材料
  • 申请书
  • 作文大全
  • 读后感
  • 调查报告
  • 励志歌曲
  • 请假条
  • 创先争优
  • 毕业实习
  • 财神节
  • 高中主题
  • 小学一年
  • 名人名言
  • 财务工作
  • 小说/有
  • 承揽合同
  • 寒假计划
  • 外贸信函
  • 励志电影
  • 个人写作
  • 其它相关
  • 生活常识
  • 安全稳定
  • 心情短语
  • 爱情短信
  • 工会工作
  • 小学五年
  • 金融类工
  • 搞笑短信
  • 医务工作
  • 党团工作
  • 党校学习
  • 学习体会
  • 下半年工
  • 买卖合同
  • qq空间
  • 食品广告
  • 办公室工
  • 保险合同
  • 儿童英语
  • 软件下载
  • 广告合同
  • 服装广告
  • 学生会工
  • 文明礼仪
  • 农村工作
  • 人大政协
  • 创意广告
  • 您现在的位置:六七范文网 > 其它相关 > 正文

    一种基于多模态感知的双声道音频生成方法

    来源:六七范文网 时间:2023-06-19 00:15:01 点击:

    官 丽,尹 康,樊梦佳,薛 昆,解 凯

    (1.国网北京市电力公司,北京 100031;
    2. 南京南瑞继保电气有限公司,江苏 南京 211102)

    人类听觉系统能够根据音频在两耳间的声级差以及声音到达两耳的时间差来定位音源方位与距离,感受环境的空间分布[1]。然而,目前大部分视频仍然使用单声道音频,无法通过左右声道的差异重现人类的真实听觉感受,视频中的空间位置并没有在音频中得以体现,从而降低了观看体验,无法还原真实的空间化听觉感受。此外,获取高质量双声道音频需要专业录制设备,难以应用到日常的视频场景中。因此,如何为单声道的视频生成对应的双声道音频,以重现更加真实的双耳听觉体验,是近年来音频生成研究的一个挑战性问题。

    生成立体感音频面临的关键挑战是如何向音频中添加空间化的信息。为了向音频添加额外的空间特征,往往需要视频内容辅助完成,以定位画面中音源,根据不同画面内容分离对应音频,为360°全景视频画面生成双声道音频。Gao等人提出了一种双声道音频生产网络模型[2],其使用ResNet[3]来处理视频特征,以编码器-解码器结构的网络模型完成音频生成,并提出了预测左右声道差值而非直接预测左右声道信号的方法,根据左右声道差值重建得到音频信号,从而有效驱使模型学习视频信息,帮助模型更快收敛。Morgado等人提出了一种针对全景视频生成立体混响音频的模型[4],其首先将音频根据音源进行分离定位,再根据音源的空间分布组合各个音源得到立体混响音频,同时,该模型在使用ResNet提取视频特征的基础上,还使用FlowNet2[5]提取视频的动态特征,但是该模型较为复杂,且主要针对全景视频,无法直接完成普通视频的双声道音频生成。此外,一些音频空间化的研究工作实现了对视频画面中不同音源的定位与分离,不仅在画面中标识音源的位置,也分离出该音源对应的音频[6,7],从而发掘音频与空间之间的联系,有益于实现视频画面信息与音频信息的互相补足。

    本文构建了一个端到端模型,以视频的画面和单声道音频为输入,使用深层卷积神经网络,分别提取视频的画面以及音频特征,并尝试将视觉特征以及音频特征进行融合分析,将视频画面中包含的空间信息以及原始的音频内容进行整合,从而生成携带空间化信息的双声道音频。本文的主要贡献有三个方面:(1)构建了一个为单声道视频生成包含空间化信息的双声道音频的端到端深度学习模型,该模型包含视觉分析模块与音频分析模块两部分,利用深层卷积神经网络来识别视频中的视觉特征以及音频特征,并将视频特征融合进音频特征,经音频分析模块处理,生成对应的双声道音频内容。(2)设计了一种新颖的音频视频融合分析网络Audio-Visual U-Net,实现了针对音频内容与视频内容的多模态分析,完成双声道音频的生成。该网络能够多层次、多尺度地融合视频特征与音频特征,更好地将视频画面中的空间信息整合进音频中,实现对视觉特征的高效利用,最终提升模型效果。(3)在公开数据集上的实验结果表明本文所提方法优于现有方法,能够生成高质量的双声道音频。

    提出的双声道音频生成模型以及工作原理如图1所示,主要包括四个部分:(1)视觉特征(Visual Feature)提取与分析;
    (2)音频特征(Audio Feature)提取与分析;
    (3)视觉和音频特征融合;
    (4)双声道音频生成。视觉分析模块对输入的视频画面进行特征提取,音频分析模块则对输入的单声道频谱进行特征提取,视觉特征与音频特征在Audio-Visual U-Net网络中进行融合,并由复合特征预测得到双声道音频对应的频谱掩蔽,将输出的复值掩蔽应用于单声道频谱可得到左右声道音频差的频谱,再将得到的频谱进行逆STFT变换,即可得到左右声道音频差,从而还原得到左右声道的音频信号。

    图1 基于多模态感知的双声道音频生成模型

    视觉特征能够为音频内容的深度学习任务提供帮助[6,8]。为了实现双声道音频生成,需要分析视频画面中的空间信息,通过画面了解不同声源物体在场景中的具体位置,判断声音从什么方向、经过多远距离传递到观察者位置,从而了解当前场景中的空间布局,确定声音在环境中的混响或回声状况。如图2所示的例子,通过分析视频画面可以对声源(弹琴者)和听众进行定位,这些位置和空间特征对双声道音频生成非常有用。

    为实现以上视觉特征的提取,本文使用卷积神经网络来完成双声道音频生成模型中的视觉分析任务[9, 10],即使用现有的图像分类深度学习模型提取视觉特征。本文采用预训练的视觉图像网络来完成视觉分析工作,对预训练模型在具体的数据集上进行微调以适应双声道音频生成任务。这不仅能够有效减少模型训练的成本,同时得到的模型经过迁移后也能够有较好的泛化能力。基于深层卷积神经网络的图像分析模型较多,如ResNet[3]、DenseNet[11]、GoogleNet[12]等。然而,这些模型不能直接用于处理视频。一方面,上述模型均以单张图像作为处理对象,而视频是连续的画面帧。另一方面,这些模型主要用于图像分类任务,并不适用于双声道音频生成任务,因此需要对其进行修改和调整,使其适应针对双声道音频生成的视觉分析任务。

    图2 视频分析在双声道音频生成中的作用示例

    为解决对视频中连续的画面帧的处理的问题,本文使用关键画面帧代替短片段内的视频画面。具体而言,将一段视频划分为长度t(t<1.0)秒的多个连续视频片段,针对每一个视频片段,抽取中间位置的画面帧作为关键帧,并作为该视频片段的视觉输入。考虑短片段内视频内容不会发生较大变化,关键画面帧基本能够反映视频片段内的大致视觉状况。为调整模型使其适应双声道音频生成的视觉分析任务,本文在模型中保留原始网络中特征提取部分,去除网络中末端的分类器部分,只获取模型隐藏层提取的视觉特征。多个隐藏层能捕获输入图像对应的高维视觉特征,这些特征将被输入至后续的音频分析模块中,利用音频视频融合网络,将视觉特征整合至音频内容之中。此外,本文还采用迁移学习进一步提升模型的泛化能力。首先使用预训练的权重来初始化网络,然后使用较小的学习率对模型进行微调,让网络适应当前的数据集,从而避免使用重新初始化的权重从头进行训练,可加快模型的训练速度,同时也提高网络的泛化能力。

    原始音频信号为音频的时序采样序列,包含每一个离散采样点的信号值,其数据格式为一维数组,数组的长度=音频时长(T)×音频采样率(S)。其中,音频采样率代表录音设备在一秒钟内对声音信号的采样次数。越高的采样率意味着能更加精准地还原原始音频信号,但单位时间内的数据量也会增加。普通的单声道音频只包含一个音频序列,双声道音频则包含左右两个差异化的音频序列。

    原始音频信号只包含时序上的波形信息,音频频域上的分布特征无法直接通过原始音频信号获取。为了分析频域上的特征,需要对音频进行傅立叶变换。随着时间变化,音频信号频域的分布特征也在变化。这种非平稳信号不适用于普通的傅立叶分析。为了获取音频在频域以及时域上的特征,需要对音频信号进行时频分析,本文选择使用短时傅立叶变换STFT(Short-Time Fourier Transform)[13]进行时频分析。STFT能够获取时域以及频域两个维度的信号分布,能够更加清晰地呈现音频信号特征,表示为:

    (1)

    其中,x[n]表示在n时刻的输入信号,w[n]是对应的窗口函数。STFT是传统傅立叶变换的拓展,对时序数据在时间维度上以一定的窗口函数截取小范围的信号,再对该窗口内的信号进行离散傅立叶变换,即可得到该取样帧内的频谱状态。将各取样帧的频谱在时间维度上进行堆叠,便得到了时间维度上的频谱变化。图3中方框框选的区域表示了相同时间帧内的音频的原始波形,以及在对应的时频频谱中的分布。

    图3 音频信号的STFT变换

    音频和视频通过时间实现关联。沿着时间维度,每组帧的频谱通常会有重叠区域,以避免因切割方式造成帧之间的边界误差。为了减少在截取信号时造成的频谱泄漏,需要在截取过程中使用窗函数,将原始信号与窗函数进行点乘操作。窗函数要求其中央位置取值最大,且由中央向左右两侧单调递减为零,从而减少截取帧之间的干扰。本文选择Hanning窗函数:

    (2)

    使用视频分析频谱作为音频分析的输入有利于数据的分析处理。经过STFT变换后得到的音频频谱为一个二维复值矩阵,对复值频谱取绝对值得到的幅值为对应的频谱幅度,复数辐角则是对应频谱的相位,因此复值频谱同时包含了频谱幅度与相位的信息,在信息含量上更为丰富。同时可以对频谱使用传统的二维卷积神经网络进行进一步的特征提取工作。由于时频分析频谱同时包含了音频信号在频域以及时域维度上的信息,相较于只有时序维度的原始波形信号,能够更有效地提取其音频成分的特征。短时傅立叶变换是可逆的,因此在生成音频时可以直接以音频的时频频谱作为预测目标,对频谱进行逆短时傅立叶变换即可还原原始音频。

    双声道音频生成任务的目标是得到尽可能精准的左右声道音频,而该任务可以视为一种特殊的音频分离任务,即从原始的混合音频中分离出左右声道对应的音频信息。音频分离任务的传统解决方法包括有监督以及无监督的方法。有监督的音频分离方法使用深度神经网络来学习原始音频以及目标音频之间的映射,通过隐藏层以及非线性激活函数的组合来发掘音频特征间的关联,实现端到端的音频生成。然而,有监督方法需要大量的样本数据并需进行数据标注,费时耗力且成本高。无监督的音频分离方法以原始音频的声学特征作为分离的依据,采用非负矩阵分解等实现分离[6, 14]。然而,无监督的方法难以推广到复杂音频环境下。例如,环境中包含大量未知噪音时,其在面对现实环境的应用场景时会较为吃力。

    本文采用自监督的双声道音频分离方法实现双声道音频生成。该方法以时频中包含的左右声道音频作为模型的预测目标,通过深层卷积神经网络实现对音频的预测。作为训练目标的左右声道音频是视频数据中自然携带的,因此任何包含双声道音频的视频都能够作为双声道音频分离任务的训练数据,无需额外的人工标记工作。

    对于音频分离任务,频谱掩蔽是实现频谱分离的常用手段。由于直接以音频的原始时序信号作为模型输入以及输出无法充分解析音频内容,模型难以收敛,无法得到精确的音频输出结果,因此在输出阶段也以音频的时频频谱作为模型的预测目标,这可以通过频频掩码来进行预测[15, 16]。频谱掩蔽是一个与输入频谱尺寸相同的矩阵,通过将原始频谱S0与掩蔽M进行乘积操作,可得到目标频谱St:

    St=M·S0

    (3)

    使用频谱掩蔽作为双声道音频生成模型的预测对象能够减少模型学习的信息量,取值分布较为稳定的掩蔽也便于模型的学习以及收敛。

    这里的频谱掩蔽采用直接在复数域进行掩蔽操作的理想复值掩蔽,它能够减小模型的运算量。复值掩蔽需要原始频谱与掩蔽在复数域进行乘积运算,针对目标音频的复值掩蔽操作表示为:

    R(St)=R(M)·R(S0)-I(M)·I(S0)

    (4)

    I(St)=R(M)·I(S0)-I(M)·R(S0)

    (5)

    其中,R(*)表示复值频谱的实部,I(*)表示虚部。

    一般的音频分离可能存在多个分离目标,而双声道音频生成任务的分离对象仅有左右声道音频两个对象,并且分离对象的指定范围较为明确,即画面中左右部分对应的音频。因此,双声道音频生成可以利用这种约束来提升模型效果。

    真实数据中的左右声道音频差SD(t)可表示为:

    SD(t)=SL(t)-SR(t)

    (6)

    已知输入的混合音频SM(t)为:

    SM(t)=SL(t)+SR(t)

    (7)

    (8)

    (9)

    通过预测音频差来实现左右声道的还原,更加符合双声道音频的特性。双声道音频正是利用左右声道音频的差异来实现音频的空间感,以左右声道之差作为模型的预测目标,能够迫使模型关注左右声道音频的差异,得到更加真实的左右声道音频。同时相较于预测完整音频,预测音频差模型需要学习的内容更少,能够使得模型更快收敛,得到更好的预测效果。

    本文设计了一种类似U-Net的网络架构[17]实现音频分析以及双声道音频生成。U-Net由对称的编码器及解码器两个网络组成,编码器是多层的卷积神经网络,对输入数据进行下采样,提取高层次特征,解码器则对高层次特征进行上采样,上采样通过转置卷积操作实现,将高度压缩的数据特征还原为原始尺寸的输出结果。MONO2BINAURAL[2]是基于U-Net的双声道音频生成的深度学习模型,它保留了原始U-Net的大部分结构,但在音频解码器的输入阶段引入了视觉特征。本文进一步改进了MONO2BINAURAL的网络结构,提出了一种新的融合音频和视频的双声道音频生成模型Audio-Visual U-Net,该模型加强了对视觉特征的融合,将视觉特征在音频生成网络中进行复用,以确保音频信息与视觉信息充分融合。

    如图4所示,Audio-Visual U-Net模型同样包含编码器和解码器两个模块。编码器与解码器均包含5层的卷积神经网络。编码器部分与传统U-Net相似,以混合单声道音频的频谱作为输入,使用二维卷积网络完成下采样过程,卷积核大小为4 × 4,同时加入LeakyRelu作为激活函数以及Batch Normalization,音频频谱掩蔽的输出使用Sigmoid激活函数将输出范围限定为[0,1],再将输出范围映射至[-1,1],以实现对音频频谱中的特征的提取。在解码器部分则引入了加强的视觉特征融合,在上采样阶段的每一网络层,原始的视觉特征会经过视觉融合模块(Visual Fusion),视觉融合模块保留了MONO2BINAURAL中使用的1×1卷积降维方式,对输入的视觉特征进行压缩。压缩后的视觉特征通过拼接的方式与音频特征合并。同时,模型针对视觉特征融合进行了加强,将视觉融合模块拓展至上采样阶段的每一个网络层中,实现多尺度、多层次的视觉特征融合。上采样的每一个阶段均有单独的视觉融合层,能够针对上采样的不同阶段筛选不同的视觉特征。上采样阶段不同的网络层关注的往往是不同尺度的数据特征,单一的视觉特征输入在经过降维压缩后能够携带的信息量已经被缩减,无法充分满足不同尺度下信息需求。因此根据不同的上采样阶段,选择合适 的视觉特征,让不同的网络层关注不同的视觉特征,能够更高效地利用输入的视觉特征。上采样阶段也保留了跳跃连接,因此上采样网络层的输入是同阶段的下采样特征、上一阶段的上采样输出、降维后的视觉特征三者的融合。上采样操作由转置卷积完成,音频以及视频的融合特征经过5层的上采样,最终输出预测的音频频谱掩蔽。

    图4 Audio-Visual U-Net网络

    Audio-Visual U-Net模型的训练目标为左右声道之差对应的STFT频谱,使用目标频谱与预测频谱的均方误差作为损失函数,以衡量预测频谱与目标频谱之间的差距。

    (10)

    复值频谱的实部以及虚部已经被单独分离为输入的两个通道,因此损失函数均在实数域完成计算。

    6.1 数据集、评估指标和对比基准

    本文在视频数据集FARI-Play数据集[2]上验证所提方法对双声道音频生成的性能。该数据集包含1871个10秒左右的视频,总时长5.2小时,数据总量约100G,其中的视频数据使用专业双耳麦克风录制,因此拥有高质量的空间化音频信号。视频主要内容为乐器演奏,也包含部分人声。数据中包含了不同乐器在不同空间位置下的组合,能够较为充分地体现出空间位置的变化。本文所提方法的视频片段划分长度t=0.63秒,即按照0.63秒的滑动窗口,将输入的视频划分为多个连续的片段。同时为了减少由于片段截取边缘造成的误差,截取窗口以0.05秒的步长沿时间轴移动,对视频片段进行逐个处理后将生成的音频片段进行叠加,在窗口重叠部分取其重叠音频信号均值。模型训练中,采用随机策略将80%数据划分为训练数据集,10%为验证数据集,10%为测试数据集。实验结果为模型重复运行10次得到的平均值。

    实验采用STFT距离和包络距离ENV作为评估指标。STFT距离指对音频信号进行短时傅立叶变换后,计算出的两个音频频谱的欧式距离:

    (11)

    其中,S表示原始音频信号经STFT变换得到的频谱,表示欧式距离,预测音频与原始音频STFT距离越小,则生成效果越好。包络距离ENV(Envelope Distance)则计算相应音频信号的频谱包络,并计算包络差值:

    (12)

    其中E[x]表示信号x的包络,预测音频与目标音频计算所得包络距离越小,则表示生成效果越好。

    为客观对比本文所提模型的性能,选取了3种对比基准:(1)单声道音频(Mono-Audio):左右声道直接使用相同的单声道音频,以此模拟双声道音频,作为双声道音频生成效果的下限基准。(2)无视觉模型(Audio-Only):在本模型的基础上,移除视觉分析模块,仅以音频信息作为模型的输入,用于考察视觉信息在模型中体现的效果。(3)MONO2BINAURAL:一种基于U-Net的双声道音频生成模型,也是目前公开的性能最好的模型。

    6.2 实验设置

    模型实现基于PyTorch1.4.0框架,使用Python3.7实现,并使用opencv、ffmpeg、PIL.Image和librosa等开源库实现音频信号以及图像的处理。

    实验中的主要参数设置包括:(1)模型训练的优化器为Adam[18],其中,betas=(0.9,0.999),weight_decay=0.0005;
    (2)模型大致在400轮训练时收敛,因此将模型学习次数设定为500;
    (3)模型初始学习率为0.0001,学习率每10个epochs下降一次,学习率下降系数为0.94;
    (4)模型在样本数量为1497的训练数据集上进行反复训练的同时,每20次训练迭代后,会在数量为187的验证数据上计算当前验证损失,以观察模型的泛化能力。

    6.3 实验结果

    表1展示了本文模型的双声道音频生成性能以及与基线模型的对比。其中,单声道音频模型直接使用音频信号计算,无训练的验证损失。实验结果表明,本文所提模型在STFT距离和ENV距离指标上均优于其他方法。(1)对比单声道音频与无视觉模型的结果,可见使用音频数据的模型效果优于原始单声道音频模型,说明模型的音频分析模块能够利用音频内容中的特征辅助进行双声道音频生成。但仅用音频特征并不能取得较好双声道生成效果。(2)无视觉模型与本文模型的对比表明,使用了视觉分析的模型由于提供了视觉特征,能够更好实现音频的空间化,生成更加真实的双声道音频。(3)本文方法的性能优于MONO2BINAURAL模型,说明Audio-Visual U-Net能够更好地融合视觉特征以及音频特征,实现对混合特征的更好利用与解析,充分挖掘视觉特征与音频特征之间的联系。

    表1 双声道音频生成性能对比

    图5使用模型生成的双声道音频波形与数据集中原始的双声道音频进行对比示例,分别展示了一段视频对应的左声道以及右声道的音频波形,其中蓝色波形为数据的真实值,橙色波形为通过模型预测得到的音频波形。对比结果表明预测音频的波形与实际波形基本吻合,并且对于在左右声道存在明显差异的音频片段,预测音频能为左右声道音频预测出差异化的结果。如图5中使用红色边框框选的区域,这部分的波形在左右声道上存在明显差异,部分的特征只出现在左声道音频中,在右声道音频中则被消除。而预测的音频也基本能够还原这种音频差异,这种左右声道的差异能够让音频表现出空间感。

    图5 双声道音频生成结果与原始双声道音频对比示例

    本文进一步验证了视觉分析模块中不同预训练网络的消融实验,结果如表2所示。其中,在相同的数据和训练参数下,对比3种视觉预处理网络在双声道音频生成任务中的表现,所有的视觉预训练均使用ImageNet[19]预训练的权重进行初始化,并在实际训练过程中进行微调与迁移。实验中选用的ResNet为ResNet-18,DenseNet为DenseNet-121。实验表明,在使用预训练网络进行视觉分析时,ResNet的效果最好。在3种模型中,ResNet的参数数量相较于GoogleNet少,因此训练速度上要快于GoogleNet。而DenseNet的参数数量为3个网络中最少,模型的体积也最小,但是由于其网络结构存在更多的跨层网络连接,模型的运算量较ResNet要大,导致训练时长反而更长。因此,本文采用ResNet 作为双声道音频生成模型的视觉基础网络。

    表2 视觉分析模型的消融实验

    最后,为了更直观地呈现视觉特征在双声道音频生成任务中的作用[20, 21],实验中以热力图的形式展示视频画面中对双声道音频生成贡献最大的图像部分,将视觉分析网络的效果进行可视化呈现。实验设计了一个4×4像素大小的窗口,窗口会滑动覆盖整个画面,窗口内的画面内容会以画面均值替代,相当于将该部分画面移除。计算当画面部分被移除时,模型得到结果损失的变化,若画面部分移除造成损失大幅上升,则表明该部分的画面对于视觉分析有着较大的贡献。将画面区域与对预测损失之间的影响关系,转换为相应的热力图,对于视觉分析有较大贡献的区域则会在热力图中以红色标识,对视觉分析贡献较小的区域则会以蓝色标识。

    图6的示例中,第一行为原始输入图像;
    第二行为视觉分析热力图与原始图像的重合,热力图颜色越接近红色则表明该区域为视觉分析网络所关注的位置;
    第三行使用白色选框标记出图像中真实的音源位置,如乐器的演奏者。根据图6中呈现的结果,视觉分析模型在对视频画面进行分析时所关注的画面区域,基本上与画面中真实的音源位置重合。这表明视觉分析网络在进行双声道音频生成任务时,能够较为准确地定位画面中重要的视觉元素,大致确定画面中的音源位置,辅助对音频的分离与重组工作。

    图6 视觉分析效果的可视化示例

    双声道音频生成任务涉及图像处理以及音频处理等多个领域的热点研究问题。本文提出了一种为单声道视频生成对应双声道音频的端到端模型Audio-Visual U-Net,其通过对音频视频的融合特征分析,在传统U-Net的基础上,将视觉信息也以多尺度的形式融合至音频特征中,实现了对视觉特征的高效利用。实验结果表明,所设计的模型结构,在双声道音频生成的性能优于现有模型,在STFT距离以及ENV距离两项指标上均取得了提升。

    猜你喜欢声道音频频谱9.7.8声道、造价250余万 James极品影院赏析家庭影院技术(2021年10期)2021-11-20一种用于深空探测的Chirp变换频谱分析仪设计与实现空间科学学报(2021年6期)2021-03-09为发烧需求打造的11声道后级 Orisun(傲力声)OA-S11家庭影院技术(2020年7期)2020-08-24必须了解的音频基础知识 家庭影院入门攻略:音频认证与推荐标准篇家庭影院技术(2018年11期)2019-01-21一种基于稀疏度估计的自适应压缩频谱感知算法测控技术(2018年7期)2018-12-09基于Daubechies(dbN)的飞行器音频特征提取电子制作(2018年19期)2018-11-14实现从7.2到11.2声道的飞跃 Onkyo(安桥)TX-RZ830家庭影院技术(2018年10期)2018-11-02音频分析仪中低失真音频信号的发生方法电子制作(2017年9期)2017-04-17Pro Tools音频剪辑及修正人间(2015年8期)2016-01-09考虑覆盖率下时差式超声流量计的平面声道模型*华南理工大学学报(自然科学版)(2014年1期)2014-08-16

    推荐访问:感知 生成 多模