基于双模多粒度交互的多模态情感分析方法、设备及介质技术

技术编号:39146596 阅读:23 留言:0更新日期:2023-10-23 14:57
本发明专利技术基于双模多粒度交互的多模态情感分析方法、设备及介质包括如下步骤:首先分别提取不同模态的数据特征,其中,将文本数据输入BERT预训练模型,对评论文本数据进行基于字符级别的强抽取;将音频输入开源模型COVAPER中,提取声学特征;将图像特征输入ResNet网络中,提取图像的局部特征和全局特征;然后将文本特征和图像特征输入多粒度融合模块,将文本特征和音频特征和输入细粒度融合模块,分别融合文本

【技术实现步骤摘要】
基于双模多粒度交互的多模态情感分析方法、设备及介质


[0001]本专利技术涉及情感分析
,尤其涉及基于双模多粒度交互的多模态情感分析方法、设备及介质。

技术介绍

[0002]为支持设计制造运维一体化平台服务质量提升,需要基于客户对服务评价数据对客户对服务质量的感受进行分析,因此,对设计制造运维一体化平台中存在的包含图像,文本和视频的评论数据进行情感分析是平台提供商了解服务质量的重要途径。
[0003]因此,情感分析是设计制造运维一体化平台运行服务的关键环节,是平台提供商对用户做出快速反馈的重要途径。然而,区别于微博、淘宝、京东等生活类社区,该平台具有领域性,专业性等特点,且涉及的范围广,数据量大,内容复杂,给设计制造运维平台中的情感分析及后续服务工作带来巨大的挑战。此外,平台中产生的数据包含了视频、图像、音频和文字,针对这些海量的多模态数据,现有的单模态情感分类方法存在分类准确率和效率低的问题,难以支持平台提供商快速、高效的判断用户群体对其提供服务的感受、态度和市场的口碑,同时仅依赖单一文本模态的信息对情感进行分析,未能充分利用其他模态的信息,对情感的分类具有片面性,而当前的特征融合方法中存在模态重要性难以体现、模态间特征融合不充分、融合方法不具有针对性和融合粒度单一等问题。因此,需要进行改进。

技术实现思路

[0004]本专利技术提供了一种基于双模多粒度交互的多模态情感分析方法、设备及介质。
[0005]第一方面,本专利技术提供了一种基于双模多粒度交互的多模态情感分析方法,包括如下步骤:
[0006]对运维反馈多模态评论数据进行预处理;
[0007]将多模态评论数据中的文本输入BERT预训练模型提取特征,对问题文本的特征进行基于字符级别的强抽取;将音频输入开源模型COVAPER中,提取声学特征;将图像特征输入ResNet网络中,提取图相特征,提取局部特征和全局特征;
[0008]将文本特征和图像特征输入多粒度融合模块,将文本特征和音频特征和输入细粒度融合模块,分别融合文本

图像特征,文本

音频特征,最后通过加权求和得到融合三种模态的特征向量;
[0009]通过全连接层输出情感分类结果。
[0010]进一步地,对运维反馈多模态评论数据进行预处理的过程为:首先对运维反馈评论文本进行清洗、去噪、分词、去停用词和标准化;然后对音频数据进行预加重、分帧和加窗;最后对图像数据进行去噪、统一通道数和统一像素值。
[0011]进一步地,将多模态平均数据中的文本输入BRRT预训练模型提取特征的过程如下:
[0012]位置编码:标记单词在输入文本序列中的绝对位置信息,首先将单词在文本序列
中的位置进行One

hot编码,然后利用位置矩阵将位置的One

hot编码转化为位置编码,具体过程如式(1)所示。
[0013]x
p
=we
p
ꢀꢀ
(1)
[0014]其中w表示可训练的位置嵌入矩阵;
[0015]利用多头自注意力层对文本序列的特征提取,具体计算方式如式(2)所示。
[0016][0017]其中,Q表示查询矩阵,K表示键矩阵,V表示值矩阵,softmax表示表示归一化函数,d
k
表示特征向量的维度;
[0018]求和与层归一化:通过残差连接将输入的词向量和多头注意力机制提取的特征向量相加,然后利用层归一化将向量数值限制在标准正态分布以内,具体计算方法如式(3),(4)所示。
[0019]x=x
attention
+x
embedding
ꢀꢀ
(3)
[0020][0021]其中μ和σ表示按向量矩阵的行求得的均值和方差,γ和β表示缩放和平移的参数,ε是一个极小的数,为防止分母为0;
[0022]求和与归一化的向量经过两层全连接神经网络和激活函数,使特征向量的维度与输入向量的维度保持一致。具体过程如式(5),activate表示激活函数,FC
(2)
表示两层全连接神经网络;
[0023]x=activate(FC
(2)
(x))
ꢀꢀ
(5);
[0024]从位置编码到求和与层归一化的步骤表示一个Transformer的特征提取过程,BERT由12个Transformer模块组成,即完整过程可以表示为:
[0025]x
h
=Transformer
(12)
(x)
ꢀꢀ
(6)
[0026]其中x
h
表示文本序列最终的特征表示,Transformer
(12)
表示12Transformer个模块。
[0027]进一步地,COVAPER提取工具,以30帧/秒的速度提取音频数据的声学特征,其中包括峰值斜率参数,梅尔频率倒光谱系数,涵盖了频谱,音质和韵律学特征与情感分类相关的特征;
[0028]ResNet模型中,残差块用于构建深度网络,计算方式如下:
[0029]X'=F(X)+X
ꢀꢀ
(7)
[0030]其中,F(X)表示处理输入X的神经网络。
[0031]进一步地,采用如下融合模型,将文本特征和图像特征输入多粒度融合模块,将文本特征和音频特征和输入细粒度融合模块,分别融合文本

图像特征,文本

音频特征,最后通过加权求和得到融合三种模态的特征向量:
[0032](1)特征对齐层
[0033]获得的图像特征和音频特征,采用两种模式特异性的单向来捕捉这些模态的时间特征,具体计算如式(8)、(9)所示。
[0034]X

I
=I_LSTM(X
I

I
)
ꢀꢀ
(8)
[0035]X'
A
=A_LSTM(X
A

A
)
ꢀꢀ
(9)
[0036]其中,I_LSTM和A_LSTM表示单向长短期记忆网络,X

I
和X'
A
为I_LSTM和A_LSTM隐藏层的输出序列,表示对应模态在时间维度上的特征表示,θ
I
和θ
A
表示单向长短期记忆网络的隐藏层的参数;
[0037]由于音频特征和图像特征的维度小于文本特征的维度,使用一个全连接神经网络层将其调整到同一维度,具体计算如式(10)所示。
[0038][0039]其中,θ{X
T
,X

I
,X'
A
}表示文本、图像和音频模态的全连接层神经元的参数。
[0040]与和相比,在训练过程本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双模多粒度交互的多模态情感分析方法,其特征在于,包括如下步骤:对运维反馈多模态评论数据进行预处理;将多模态评论数据中的文本输入BERT预训练模型提取特征,对问题文本的特征进行基于字符级别的强抽取;将音频输入开源模型COVAPER中,提取声学特征;将图像特征输入ResNet网络中,提取图像的局部特征和全局特征;将文本特征和图像特征输入多粒度融合模块,将文本特征和音频特征和输入细粒度融合模块,分别融合文本

图像特征,文本

音频特征,最后通过加权求和得到融合三种模态的特征向量;通过全连接层输出情感分类结果。2.根据权利要求1所述的一种基于双模多粒度交互的多模态情感分析方法,其特征在于,对运维反馈多模态评论数据进行预处理的过程为:首先对运维反馈评论文本进行清洗、去噪、分词、去停用词和标准化;然后对音频数据进行预加重、分帧和加窗;最后对图像数据进行去噪、统一通道数和统一像素值。3.根据权利要求1所述的一种基于双模多粒度交互的多模态情感分析方法,其特征在于,将多模态评论数据中的文本输入BRRT预训练模型提取特征的过程如下:位置编码:标记单词在输入文本序列中的绝对位置信息,首先将单词在文本序列中的位置进行One

hot编码,然后利用位置矩阵将位置的One

hot编码转化为位置编码,具体过程如式(1)所示;x
p
=we
p
(1)其中w表示可训练的位置嵌入矩阵;利用多头自注意力层对文本序列的特征提取,具体计算方式如式(2)所示;其中,Q表示查询矩阵,K表示键矩阵,V表示值矩阵,softmax表示表示归一化函数,d
k
表示特征向量的维度;求和与层归一化:通过残差连接将输入的词向量和多头注意力机制提取的特征向量相加,然后利用层归一化将向量数值限制在标准正态分布以内,具体计算方法如式(3),(4)所示;x=x
attention
+x
embedding
ꢀꢀꢀꢀꢀꢀꢀ
(3)其中μ和σ表示按向量矩阵的行求得的均值和方差,γ和β表示缩放和平移的参数,ε是一个极小的数,为防止分母为0;求和与归一化的向量经过两层全连接神经网络和激活函数,使特征向量的维度与输入向量的维度保持一致,具体过程如式(5),activate表示激活函数,FC
(2)
表示两层全连接神经网络,x表示最终得到的文本特征向量;x=activate(FC
(2)
(x))
ꢀꢀꢀꢀꢀꢀꢀ
(5)从位置编码到求和与层归一化的步骤表示一个Transformer的特征提取过程,BERT由
12个Transformer模块组成,即完整过程可以表示为:x
h
=Transformer
(12)
(x)
ꢀꢀꢀꢀꢀ
(6)其中x
h
表示文本序列最终的特征表示,Transformer
(12)
表示12Transformer个模块。4.根据权利要求1所述的一种基于双模多粒度交互的多模态情感分析方法,其特征在于,COVAPER提取工具,以30帧/秒的速度提取音频数据的声学特征,其中包括峰值斜率参数,梅尔频率倒光谱系数,涵盖了频谱,音质和韵律学特征与情感分类相关的特征;ResNet模型中,残差块用于构建深度网络,计算方式如下:X'=F(X)+X
ꢀꢀꢀꢀꢀ
(7)其中,F(X)表示处理输入X的神经网络。5.一种基于双模多粒度交互的多模态情感分析系统,其特征在于,采用如下融合模型,将文本特征和图像特征输入多粒度融合模块,将文本特征和音频特征和输入细粒度融合模块,分别融合文本

图像特征,文本

音频特征,最后通过加权求和得到融合三种模态的特征向量:(1)特征对齐层获得的图像特征和音频特征,采用两种模式特异性的单向来捕捉这些模态的时间特征,具体计算如式(8)、(9)所示;X

I
=I_LSTM(X
I

I
)
ꢀꢀꢀꢀꢀꢀ
(8)X'
A
=A_LSTM(X
A

A
)
ꢀꢀꢀꢀꢀꢀꢀ
(9)其中,I_LSTM和A_LSTM表示单向长短期记忆网络,X

I
和X'
A
为I_LSTM和A_LSTM隐藏层的输出序列,表示对应模态在时间维度上的特征表示,θ
I
和θ
A
表示单向长短期记忆网络的隐藏层的参数;由于音频特征和图像特征的维度小于文本特征的维度,使用一个全连接神经网络层将其调整到同一维度,具体计算如式(10)所示;其中,θ{X
T
,X

I
,X'
A
}表示文本、图像和音频模态的全连接层神经元的参数;与和相比,在训练过程中,的值将大于和为了防止点乘后...

【专利技术属性】
技术研发人员:廖伟智马伟林阎德劲阴艳超
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1