• 工作总结
  • 工作计划
  • 心得体会
  • 述职报告
  • 事迹材料
  • 申请书
  • 作文大全
  • 读后感
  • 调查报告
  • 励志歌曲
  • 请假条
  • 创先争优
  • 毕业实习
  • 财神节
  • 高中主题
  • 小学一年
  • 名人名言
  • 财务工作
  • 小说/有
  • 承揽合同
  • 寒假计划
  • 外贸信函
  • 励志电影
  • 个人写作
  • 其它相关
  • 生活常识
  • 安全稳定
  • 心情短语
  • 爱情短信
  • 工会工作
  • 小学五年
  • 金融类工
  • 搞笑短信
  • 医务工作
  • 党团工作
  • 党校学习
  • 学习体会
  • 下半年工
  • 买卖合同
  • qq空间
  • 食品广告
  • 办公室工
  • 保险合同
  • 儿童英语
  • 软件下载
  • 广告合同
  • 服装广告
  • 学生会工
  • 文明礼仪
  • 农村工作
  • 人大政协
  • 创意广告
  • 您现在的位置:六七范文网 > 其它相关 > 正文

    引入双循环机制深度学习模型的文本情感分析

    来源:六七范文网 时间:2022-12-19 10:40:05 点击:

    胡任远,刘建华,王璇,罗逸轩,林鸿辉

    (福建工程学院 计算机科学与数学学院,福建 福州 350118)

    早期的情感分析大多使用传统的机器学习方法来实现,例如支持向量机、随机森林、决策树、K邻近算法等机器学习方法[1]。但是,以传统机器学习方法为核心的情感分析方法需要依赖复杂人工规则的特征选择策略,模型参数调优和模型性能表现会受到较大的影响。

    近年来,深度学习模型被广泛应用于自然语言处理领域,国内外许多学者将其应用到情感分析中[2]。Kim等[3]首次将卷积神经网络应用于英文文本的语义特征提取任务中,并提出了一种可以捕捉局部语义相关性的模型TextCNN[4],但未能获取整体文本序列的上下文联系。梁军等[5]使用长短期记忆网络(long short-term memory, LSTM)提取上下文信息,通过情感极性转移模型进行信息提取和分类,虽然提高了分类准确率,但未提取文本序列的特征。Wang等[6]为解决该问题提出了融合卷积神经网络(convolutional neural network,CNN)的CNN-LSTM分类模型,使用LSTM网络作为解码器处理CNN的输出序列,使模型在一定程度上学习到输入序列的情感极性和上下文信息,但特征选择能力仍不足。李洋等[7]在Word2Vvec训练模型的词向量基础上,使用混合的网络模型CNN-BiLSTM进行特征提取和语义信息获取,使模型具有更好的分类性能,但对特征的处理仅使用不同大小卷积核的CNN网络。Lai等[8]提出一种由双向循环神经网络和最大池化层组成的RCNN模型(regions with CNN features),使用最大池化层做特征提取工作,提高了模型的分类能力,但增加了时间成本。刘全等[9]使用深度分层网络模型,使用区域卷积神经网络处理用户评论,将其分割为定长的不同区域来进行多特征的提取。

    综上所述,现有文本情感分类模型的特征提取方式更多局限于使用注意力机制或在模型中添加CNN层。其中,注意力机制存在抓取的关系过于单一、无法提取出文本序列中字词之间联系的问题。在模型中添加CNN虽然可以提取出各语块的主要信息,但仅使用单次卷积池化的模型也无法有效识别短文本内容、含有转折关系等句子的情感极性。

    为减少模型抓取关系过于单一对分类结果产生的影响,本研究将循环机制引入进卷积神经网络中,提出一种双循环卷积神经网络模型(double recurrent convolutional neural network, DRCNN),通过改变深度学习网络的权重共享模式,各循环结构之间使用权重私有化的方法来使模型学习到更丰富的情感特征信息。

    1.1 卷积神经网络

    卷积神经网络(CNN)采用局部连接、权值共享等策略有效地解决了网络参数大、训练时间长等问题。CNN主要包含了输入层、卷积层、池化层、全连接层和输出层,将词嵌入处理的文本向量作为卷积层的输入。卷积层使用卷积核对输入数据进行卷积计算来提取文本特征。卷积层输出如式(1)所示。

    A=f(W·X+b)

    (1)

    式中,X为输入矩阵,W为权重矩阵,b为偏置量,f为非线性激活函数。通过最大池化层来进一步提取特征,同时降低了向量维度,减少了模型参数,计算结果也可以被进一步处理。

    1.2 双向长短期记忆网络

    1.2.1 传统长短期记忆网络

    Hochreiter等[10]于1997年提出长短期记忆网络模型LSTM,改善了循环神经网络(recurrent neural network, RNN)中存在的长期依赖问题,可作为复杂的非线性单元用于构造更大型深度神经网络。LSTM采用了细胞状态和门机制,结构如图1所示。

    图1 长短期记忆网络

    图1中,h为遗留信息的输出;
    it为输入门,决定了有多少t时刻网络的输入将保存到单元状态;
    ot为输出门,控制单元状态有多少输出到LSTM的当前输出值;
    ft代表着遗忘门,决定了t-1时刻的单元状态有多少能保留到t时刻;
    σ为非线性的sigmoid函数。it、ot、ft的计算分别如式(2)~(4)所示:

    it=σ(Wixt+Uiht-1+bi)

    (2)

    ot=σ(Woxt+Uoht-1+bo)

    (3)

    ft=σ(Wfxt+Ufht-1+bf)

    (4)

    式中,xt表示t时刻的当前输入,ht-1为t-1时刻遗留的信息向量;
    Wi和Ui为输入门的记忆细胞所对应的权重矩阵;
    Uo、Wo为输出门的记忆细胞所对应的权重矩阵;
    Wf和Uf为遗忘门的记忆细胞所对应的权重矩阵;
    bi、bo、bf分别为输入门、输出门和遗留门的偏置量。

    (5)

    (6)

    式中,tanh代表着非线性激活函数tanh(),网络接收到t时刻的输入xt和t-1时刻遗留的信息向量ht-1作为3个门机制的输入,分别为it输入门、ot输出门和ft遗忘门在t时刻所得到的激活向量。最后得到最终输出ht如式(7)所示:

    ht=ottanh(ct)

    (7)

    1.2.2 双向长短期记忆网络

    双向长短期记忆网络BiLSTM是由前向LSTM与后向LSTM组合而成,可以同时考虑文本的上下文语境、提供更加全面的语义信息,减少因上下文语序问题出现的判断错误,显著提升模型效果。因为神经网络易存在过拟合的问题,Hinton等[11]在2012年提出了Dropout策略,通过随机丢弃部分比例的神经元、减小模型参数从而达到一定程度上的正则化效果。BiLSTM模型的结构如图2所示。

    图2 双向长短期记忆网络

    深度分层网络模型(BiLSTM-DRCNN模型)是结合了BiLSTM和DRCNN的情感分析模型,具体结构如图3所示。BiLSTM-DRCNN模型先利用经典BiLSTM网络处理序列使得序列中每个元素都可以包含双向的时序信息,并引入注意力机制使文本序列中带有情感倾向的信息被高度关注。BiLSTM-DRCNN模型利用多次不同层面的循环机制来处理序列特征,可以高度关注文本序列中的情感倾向,提高情感特征表达的准确性。BiLSTM-DRCNN模型不仅能够同时接收上下文信息,还能有效提取语句的情感极性,有助于提升模型对情感分析的性能。

    图3 BiLSTM-DRCNN网络模型

    2.1 模型输入

    BiLSTM-DRCNN模型所接收的数据是对原文本序列经过处理后的向量表示。对于中文文本数据先用正则表达式处理和停用词去除;
    对于英文文本数据也需要进行停用词去除以及分词和统一大小写处理。最后使用最广泛的方法将词语用分布式词向量来表示,作为模型的输入数据。

    2.2 DRCNN网络

    本节提出的DRCNN为改进传统CNN中卷积运算并添加池化层的方式,利用多次卷积操作反复提取所需要的局部特征之后,最终构造了一个循环卷积块(recurrent convolutional block,RCB)。RCB层通过多次的卷积运算来处理序列特征,再将输出传给池化层进行特征提取,使模型可以更好地分析出文本的情感倾向。DRCNN模型更关注句中含有情感极性信息的内容,它拥有多个不同循环结构组成的网络,其结构主要包含数个循环卷积层、数个池化层、展平层以及最终输出层,如图4所示。

    从图4可见,DRCNN模型在输入层之后连接着多个RCB层(RCB1~RCBm)对序列进行处理,在层与层之间加入池化层,降低数据维度,并同时提取特征;
    最后使用FLATTEN将多维数据展平成一维数据输入给分类器。每一层RCB都是由若干个卷积层所组建而成,即需要经过数次特征提取的过程,图5为RCB层的具体展开图。

    图4 DRCNN的结构分布图

    图5 RCB展开图

    RCB可看作深度为m的前馈子网,由多个卷积层组成,其中f为卷积核激活函数,A0为经过BiLSTM和注意力机制处理过后的序列信息。f(Ai)只能存在一个输入和一个输出,其中i=1,2,3,…,m-1。每个循环卷积层之后都会有一个最大池化层来进行数据降维,并且每个RCB层的权重不共享,从而使模型拥有更高的容错率。其中f(Ai)的计算如式(8)所示:

    f(Ai)=relu(W1Ai+W2(ai⊗rL))

    (8)

    式中,Ai为输入序列,W1,W2分别为权重矩阵,airL为将ai重复拼接L次,ai为序列对应的情感标签,L为固定句子长度。

    2.3 模型训练

    模型对不同的文本分类数据使用不同的激活函数,接收经过DRCNN特征提取和FLATTEN数据展平后的输出,随后进行分类处理。其中二分类数据使用了sigmoid函数如式(9)所示,三分类数据采用了softmax函数计算待分类句子情感极性,如(10)所示:

    (9)

    (10)

    (11)

    2.4 注意力机制

    注意力机制是一种能够聚焦于局部信息的机制。计算机视觉领域最早提出了注意力机制分配权重的方法,帮助神经网络具备专注于其输入特征的能力。Wang等[12]将注意力机制进入LSTM网络中,用于处理情感分析任务,最终结果证明了注意力机制在自然语言处理中的有效性。李洋等[6]将CNN与BiLSTM结合并且引入注意力机制用于处理情感分析问题中,利用CNN提取局部特征后作为BiLSTM层的输入,结合注意力机制对特定情感进行高度关注,更有效地关注输入序列的句子情感信息,比传统网络的分类效果更佳。本研究在BiLSTM层后加入注意力机制,可以使模型更好地关注情感极性等特征,随后使用DRCNN接收处理好的序列进一步进行特征提取,在注意力机制的处理序列的前提下将文本的情感特征更好地提取出来,从而提高模型的分类结果。注意力机制的原理如式(12)~(14)所示:

    (12)

    at′t=softmax(σ(st′-1,ht))

    (13)

    σ(st′-1,ht)=vTtanh(Wsst′-1+Whht)

    (14)

    式中ct′代表着输出变量,ht为隐藏层,at′t表示一个权重的概率分布,σ为变换函数,st′-1为查询项。

    3.1 实验环境

    操作系统为Windows 10,CPU为Intel Core i5-8300H,GPU为GeForce GTX 1060,内存大小为16 GB,开发环境为TensorFlow 2.2.0-GPU,开发工具使用了JetBrains Pycharm。

    3.2 实验数据

    采用的情感分类数据集如表1所示,其中CN代表中文文本数据,EN代表英文文本数据。训练集和测试集是独立的两个数据集,通过不同语言和分类目的来确保本文提出方法的有效性。中文实验数据采用了Data Fountain的开源数据o2o商铺食品相关评论数据(缩写为o2o)以及疫情期间网民情绪数据(缩写为Cov19),英文实验数据则是IMDB和Twitter评论数据。

    表1 试验数据统计

    3.3 评价标准

    因实验数据中各情感数据分布不均的问题,使用的评价模型的指标为代表正确预测正样本占实际预测为正样本的比例精准率(precision)、代表正确预测正样本的比例召回率(recall)和F1值(F1-score)。F1作为一种综合指标,可以作为模型分类结果的评价标准之一,如式(15)~(17)所示:

    (15)

    (16)

    (17)

    其中,TP(true positive)是指将原本为正类文本判定为正类文本的个数,FP(false positive)是指将原本为负类的文本判定为正类文本的个数,FN(false negative)是指将原本为正类文本判定为负类文本的个数。

    3.4 模型参数设置

    由于模型参数的选择对结果会有较大的影响,实验采用控制变量法,模型采用Adam优化器,将卷积层填充模式设为same。BiLSTM隐层节点分别取32、64和128,DRCNN隐层节点数分别取64、128和256进行对比试验。通过多次实验发现取表2参数时,BiLSTM-DRCNN深度分层具有最优性能。

    表2 模型参数设置

    本研究在设计DRCNN循环机制时采用了较少的循环次数,主要由于多次卷积特征提取在信息量上的削减会导致重要特征的遗漏,从而对结果造成负面影响,并且会增加计算时间开销。在多次试验后得到了RCB层和DRCNN层的最佳参数,可以得出DRCNN层循环次数为2且RCB层深度为2时,模型效果最优。

    3.5 对比实验

    (1)CNN模型:基于文献[13]作为经典网络模型具有强大的特征提取能力,但是存在忽略句子长距离依赖关系以及时序的问题。

    (2)BiLSTM模型:基于文献[14]提出的经典网络模型,可以处理时间序列但输入的文本序列,但冗余信息过多缺乏特征提取能力,无法有效判别句子的情感极性。

    (3)ATT-CNN 模型:基于文献[15]将注意力机制引入传统网络模型CNN中,可以关注特定的情感词汇,有效的判别出句子所表达的情感极性。但该模型无法捕捉句子上下文信息。

    (4)ATT-BiLSTM模型:基于文献[16]提出的带有注意力机制的双向长短期记忆网络。该模型客克服了CNN无法获取句子长距离依赖关系的问题,在情感分析任务中效果显著。在高度关注特定情感词的同时,有效识别用户不同的情感极性。但该模型未进一步提取序列特征,模型效果还有提升空间。

    (5)Fusion Model模型:基于文献[6]提出的结合CNN和BiLSTM的模型,输入序列通过该模型用不同大小卷积核的CNN层提取特征后拼接BiLSTM的输出,用CNN代替注意力机制运作,可以获取整句评论的长距离依赖关系。但该模型没有融入循环机制在CNN中,无法进行特征多次提取。

    (6)BiLSTM-CNN模型:基于文献[17]提出的网络模型,型结合了BiLSTM和CNN的优点,在全局语义的基础上进行特征提取,模型结果超过单一模型。

    (7)BiLSTM-DRCNN模型:本研究提出的深度网络模型,使用BiLSTM可以使每个字都包含着上下文的信息,同时结合适当深度的RCNN结构将BiLSTM处理过后的文本序列进行特征提取,充分提取情感极性的同时不会忽略边缘词汇,大大提升了分类结果的准确率。

    3.6 实验结果与分析

    本研究使用7个应用在情感分析领域的模型在两种语言4种的数据集上进行7组对比实验,模型实验结果如表3所示。

    表3 不同模型在4种数据集上的结果

    从表3可见,未引入注意力机制的基础网络模型的分类效果并不理想,CNN和BiLSTM的平均F1分数只有78.07%和79.54%;
    而ATT-CNN和ATT-BiLSTM模型的平均F1分数比基础的CNN和BiLSTM模型总体提高了0.8%和0.68%。与BiLSTM-CNN网络模型相比,BiLSTM-DRCNN模型在4个数据集上的平均F1分数提高了0.62%,在Twitter数据集上模型效果提高了1.02%;
    与CNN-BiLSTM模型相比,BiLSTM-DRCNN模型在4个数据集上的平均F1分数提升了0.97%,在o2o数据集上模型效果提升了2.27%。因IMDB数据集为公开数据集,BiLSTM-DRCNN模型相较于SOTA上的CNN-LSTM和CNNu模型,在准确率指标上平均高出0.3%,比S-LSTM模型高出2.05%,收敛速度更快。

    BiLSTM-CNN模型在4个数据集上的模型的F1分数比CNN-BiLSTM模型的F1分数高0.39%。因为先使用BiLSTM可以使序列很好地学习到上下文信息后再通过CNN进行特征提取;
    而CNN-BiLSTM模型存在CNN处理后的语块信息已经缺少部分序列的完整性,再使用BiLSTM便无法很好地抓取上下文信息。在4个数据集上,BiLSTM-DRCNN模型的收敛速度都比其他模型更快。因为不同RCB层之间的权重不共享,故研究不同Dropout比例下模型拟合能力的强弱尤为重要,可以看出模型在Dropout比例为0.3时效果最优,过高过过低的Dropout比例都会影响模型的拟合能力。

    本研究设置了3组消融实验,通过改变模型的组合方式或代替模型中部分网络结构等方法来验证BiLSTM-DRCNN模型的有效性。首先,BiLSTM-DRCNN模型中DRCNN用LSTM代替后组成BiLSTM-LSTM模型来检测DRCNN的提取能力。其次,将BiLSTM-DRCNN模型中的注意力机制剔除组成BiLSTM-DRCNN"模型,验证引入注意力机制是否会对模型的实验结果产生影响。最后,将BiLSTM部分用LSTM代替后组成LSTM-DRCNN,如此可以验证使用BiLSTM接收双向信息是否比LSTM接收单向信息对模型结果产生影响。实验结果如表4所示。

    从表4可见,模型在4个不同的数据集上均取得了最好的F1分数。与BiLSTM-LSTM模型相比,BiLSTM-DRCNN模型在4个数据集上的平均F1分数提高了1.41%,在Twitter数据集上提高了2.42%。与BiLSTM-DRCNN"模型相比,BiLSTM-DRCNN模型总体提升了1.26%,体现使用注意力机制对模型结果的有较大影响。从使用LSTM代替本文模型中BiLSTM部分的LSTM-DRCNN模型实验结果可以看出,BiLSTM-DRCNN总体提升了0.75%,其中在IMDB数据集上总体提升了1.31%。

    表4 不同模型在4种数据集上的消融实验结果

    3.7 模型训练时间分析

    对算法训练时间进行统计分析,如表5所示,在模型对比试验中选择的模型进行筛选,共取在4种数据集上10个epoch的总计训练时间做对比,剔除了不包含BiLSTM网络结构的模型,因为BiLSTM的输入为时序输入,在训练耗时上远远超过CNN网络,对比的意义不显著。

    表5 各模型在4个数据集上训练10个epoch的总共训练时间

    从表5可以看出训练最快的为BiLSTM模型,加入了注意力机制后训练时间延长了24 s,提出的BiLSTM-DRCNN虽然耗时最长,但其收敛速度却优于其他模型,如图6所示,可以看出BiLSTM-DRCNN对比另外2个模型复杂度相当的深度学习模型,均可以更快的收敛到最优解附近。

    图6 收敛速度分析图

    本研究提出一种融合双向长短期记忆网络与对向循环卷积神经网络的BiLSTM-DRCNN模型,将其应用于情感分析任务中。通过和多种神经网络模型在情感分类任务实验分板对比,验证了BiLSTM-DRCNN模型具有更好的性能。所提出的BiLSTM-RCNN模型可以将文本数据经过BiLSTM与注意力机制处理,借助BiLSTM的双向机制使得每个词都包含了上下文信息,消除传统LSTM无法捕获下文信息的缺点,并且将处理过后的序列输入到DRCNN中,利用DRCNN的内循环机制来充分提取局部情感特征,进一步获取句子的情感极性,有效处理了边缘词汇和局部情感词汇。BiLSTM-DRCNN模型改变深度学习网络的权重共享模式,各循环结构之间使用权重私有化的方法来使模型学习到更丰富的情感特征信息。权重私有化使模型具有更多参数,相比使用CNN和注意力机制的模型,该结构可以更好的提升模型情感分类能力。同时单个循环结构中采用了多卷积的模式,特征提取相比CNN更强。

    猜你喜欢 特征提取卷积注意力 同步定位与建图特征提取和匹配算法研究导航定位学报(2022年5期)2022-10-13基于全卷积神经网络的猪背膘厚快速准确测定农业工程学报(2022年12期)2022-09-09基于图像处理与卷积神经网络的零件识别计算技术与自动化(2022年1期)2022-04-15让注意力“飞”回来小雪花·成长指南(2022年1期)2022-04-09一种基于卷积神经网络的地磁基准图构建方法北京航空航天大学学报(2021年9期)2021-11-02基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究电机与控制学报(2018年9期)2018-05-14基于曲率局部二值模式的深度图像手势特征提取计算机应用(2016年10期)2017-05-12A Beautiful Way Of Looking At Things第二课堂(课外活动版)(2016年2期)2016-10-21阅读理解两则中学英语之友·高一版(2008年10期)2008-12-11

    推荐访问:双循环 引入 深度