一种基于协同注意力的多模态情感分类方法及其应用技术

技术编号:36191431 阅读:14 留言:0更新日期:2022-12-31 21:07
本发明专利技术公开了一种基于协同注意力的多模态情感分类方法及其应用,包括:1获取多模态人物情感视频数据集,并进行预处理;2构建基于协同注意力的跨模态调制网络,并在相关损失的监督下,获得最终的模态调制特征表达;3设计多模态门控网络,获取引导调制模态的偏移向量以及门控调制模态表达向量;4构建情感预测模块;5多模态情感的分类预测输出。本发明专利技术通过构建协同注意力模块,对文本引导的听觉特征和文本引导的视觉特征进行相关分析,促进非语言模态的情感表达,并在多模态门控网络的调整下,使得模态之间数据充分交互,符合人类对多模态情感的综合判断过程,最终提升情感判别的精度。最终提升情感判别的精度。最终提升情感判别的精度。

【技术实现步骤摘要】
一种基于协同注意力的多模态情感分类方法及其应用


[0001]本专利技术涉及时序BiLSTM,BART预训练模型,Transformer注意力机制以及基于多模态协同调制的交互注意力机制。通过协同注意力、深度典型相关分析以及多模态门控机制,降低多模态语义鸿沟的影响,提高非语言模态的情感表达,实现多模态视频数据集(听觉,文本,视觉)的情感分类,属于多模态的情感计算领域。

技术介绍

[0002]在5G大发展的当下,人们不再依赖于文字或图片进行信息的表达和传递,短视频成为了主流的信息载体,包含声音、视觉、听觉的小视频成为了人们情感的宣泄方式。这种多模态技术的应用,一方面帮助了用户更好地进行情感的表达和记录,另一方面促进了视频内容的精准理解。此类技术的应用,也为个性化平台提供更好地用户服务,提升用户体验和用户黏性,进而提高产品的竞争优势。多模态情感分析在全民小视频创作的浪潮下,具有重要的社会意义。情感判别的深入研究也为人机交互的发展奠定基础,并为机器人情感陪护、情感检测等方面具有重要的意义。因此为了促进模态之间的特征交互,弥合模态间的语义鸿沟,提高情感判别的精度,设计优良的网络模型进行多模态情感分析具有十分重要的意义。
[0003]但对于现有的多模态数据样本,多种模态类型的数据共享一个统一的标签,因此不同模态数据对于情感标签的贡献度是不同的。这就产生了不同模态之间的语义鸿沟,进而导致情感不确定性的表达,甚至是情感鸿沟的出现。因此使用单一模态进行情感的判别必然存在很大的局限性。人类在进行情感交流的过程中,是根据视觉、听觉和文本信息的共同决策进行判断,信息之间有主次,也有干扰偏移。现有技术并没有充分挖掘多模态的表示,以及模态信息之间的差异性和互补性,而这些均是多模态情感计算的重点研究内容。现有的多模态处理技术,较多使用基于早期融合或后期融合的多模态特征表达,或者是基于两者的混合方法,可以实现一定的情感判别效果。特征的表达对于多模态的情感判别是至关重要的环节,因此交互模态的特征提取也成为网络设计的关键。经典的基于Transformer算法的多模态情感研究,取得了较好的研究成果。但是并没有考虑不同模态的协同辅助关系,也没有对模态偏移进行很好的度量。经实验以及大量文献调研得知,文本的情感表达是最强烈和多模态标签的关系也是最为紧密的。但是现有研究没有充分运用文本模态深层辅助视觉和听觉模态的特征学习,因此无法获取更有情感表达能力的非语言特征。现有技术也没有将不同模态之间的辅助约束关系考虑到网络的设计中去,不符合人类对于情感判别的一般过程,且不同模态数据对于整体模型的贡献也没有考虑进去,最终导致多模态的情感检测效果较差。

技术实现思路

[0004]本专利技术是为了解决上述现有技术存在的不足之处,提出一种基于协同注意力的多模态情感分类方法及其应用,以期采用深度典型相关分析和门控机制,深入分析模态之间
的交互关系,计算模态之间的偏移量,以有效降低模态之间的语义鸿沟,并显著提高情感判别的精度,从而有利于人工智能对于人类情感的解读,进而提升人机交互领域的用户体验。
[0005]本专利技术为解决技术问题采用如下技术方案:
[0006]本专利技术一种基于协同注意力的多模态情感分类方法的特点在于,是按如下步骤进行:
[0007]步骤1、获取多模态人物情感视频数据集,将其中一段多模态数据集的真实标签记为y,并将该段多模态数据集中的听觉模态序列样本记为U
a
,视觉模态序列样本记为U
v
,文本模态序列样本记为U
t

[0008]将所述视觉模态序列样本U
v
输入可堆叠的双向BiLSTM网络进行预处理,输出视觉模态的初始表达特征R
v

[0009]将所述听觉模态序列样本U
a
使用wav2vec 2.0模型进行预处理,输出听觉模态的初始表达特征R
a

[0010]使用Prompt提示学习的方法对所述文本模态序列样本U
t
进行预处理,得到文本模态提示序列样本U

t
,再将U

t
输入至BART预训练模型中进行处理,输出文本模态的初始表达特征R
t

[0011]将视觉模态的初始表达特征R
v
、听觉模态的初始表达特征R
a
和文本模态的初始表达特征R
t
中任意一个初始表达特征记为R
s
,s∈{a,v,t};
[0012]步骤2、构建基于协同注意力的跨模态调制网络,并在相关损失的监督下,获得最终的模态调制特征表达;
[0013]步骤2.1、所述跨模态调制网络由J层可堆叠的文本引导的协同注意力模块TCA和J层可堆叠的模态内的自注意力模块ITE构成;
[0014]步骤2.1.1、第j层的文本引导的协同注意力模块TCA
j
利用式(1)对视觉模态的初始表达特征R
v
或听觉模态的初始表达特征R
a
以及文本模态的初始表达特征R
t
进行处理,得到文本协同注意力X
jt

f

[0015][0016]式(1)中,R
f
代表视觉模态的初始表达特征R
v
和听觉模态的初始表达特征R
a
中的任意一个初始表达特征,TCA
j
(
·
)表示文本引导的协同注意力模块TCA
j
所做的操作;
[0017]步骤2.1.2、第j层的模态内的自注意力模块ITE
j
利用式(2)对同一种初始表达特征R
s
,s∈{a,v,t}进行处理,得到模态内自注意力
[0018][0019]式(2)中,ITE
j
(
·
)表示ITE
j
模块所做的操作;
[0020]步骤2.2、使用跨模态调制网络获取多模态调制特征;
[0021]步骤2.2.1、J层可堆叠的模态内的自注意力模块ITE根据式(2)对初始表达特征R
t
进行处理,得到第J层模态内的自注意力模块ITE
J
输出的文本模态调制特征并简记为M
t

[0022]步骤2.2.2、第j层的模态内的自注意力模块ITE
j
根据式(2)对初始表达特征R
f
进行处理,得到模态内自注意力再由第j层的文本引导的协同注意力模块TCA
j
利用式(3)
对和M
t
进行处理,得到文本增强模态的输出特征从而由J层可堆叠的文本引导的协同注意力模块TCA和J层可堆叠的模态内的自注意力模块ITE交替处理后,得到第J层文本引导的协同注意力模块TCA
J
输出的文本逐级指导本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于协同注意力的多模态情感分类方法,其特征在于,是按如下步骤进行:步骤1、获取多模态人物情感视频数据集,将其中一段多模态数据集的真实标签记为y,并将该段多模态数据集中的听觉模态序列样本记为U
a
,视觉模态序列样本记为U
v
,文本模态序列样本记为U
t
;将所述视觉模态序列样本U
v
输入可堆叠的双向BiLSTM网络进行预处理,输出视觉模态的初始表达特征R
v
;将所述听觉模态序列样本U
a
使用wav2vec 2.0模型进行预处理,输出听觉模态的初始表达特征R
a
;使用Prompt提示学习的方法对所述文本模态序列样本U
t
进行预处理,得到文本模态提示序列样本U

t
,再将U

t
输入至BART预训练模型中进行处理,输出文本模态的初始表达特征R
t
;将视觉模态的初始表达特征R
v
、听觉模态的初始表达特征R
a
和文本模态的初始表达特征R
t
中任意一个初始表达特征记为R
s
,s∈{a,v,t};步骤2、构建基于协同注意力的跨模态调制网络,并在相关损失的监督下,获得最终的模态调制特征表达;步骤2.1、所述跨模态调制网络由J层可堆叠的文本引导的协同注意力模块TCA和J层可堆叠的模态内的自注意力模块ITE构成;步骤2.1.1、第j层的文本引导的协同注意力模块TCA
j
利用式(1)对视觉模态的初始表达特征R
v
或听觉模态的初始表达特征R
a
以及文本模态的初始表达特征R
t
进行处理,得到文本协同注意力X
jt

f
:式(1)中,R
f
代表视觉模态的初始表达特征R
v
和听觉模态的初始表达特征R
a
中的任意一个初始表达特征,TCA
j
(
·
)表示文本引导的协同注意力模块TCA
j
所做的操作;步骤2.1.2、第j层的模态内的自注意力模块ITE
j
利用式(2)对同一种初始表达特征R
s
,s∈{a,v,t}进行处理,得到模态内自注意力理,得到模态内自注意力式(2)中,ITE
j
(
·
)表示ITE
j
模块所做的操作;步骤2.2、使用跨模态调制网络获取多模态调制特征;步骤2.2.1、J层可堆叠的模态内的自注意力模块ITE根据式(2)对初始表达特征R
t
进行处理,得到第J层模态内的自注意力模块ITE
J
输出的文本模态调制特征并简记为M
t
;步骤2.2.2、第j层的模态内的自注意力模块ITE
j
根据式(2)对初始表达特征R
f
进行处理,得到模态内自注意力再由第j层的文本引导的协同注意力模块TCA
j
利用式(3)对和M
t
进行处理,得到文本增强模态的输出特征从而由J层可堆叠的文本引导的协同注意力模块TCA和J层可堆叠的模态内的自注意力模块ITE交替处理后,得到第J层文本引导的协同注意力模块TCA
J
输出的文本逐级指导下的模态调制特征并简记为M
f

式(3)中,M
f
代表文本指导下的听觉模态调制特征M
a
和文本指导下的视觉模态调制特征M
v
的任意一个模态调制特征;步骤2.4、计算跨模态调制网络的阶段损失;将跨模态调制网络中输出M
a
的听觉网络分支记为f
a
,将跨模态调制网络中输出M
v
的视觉网络分支记为f
v
,令W
v
和W
a
分别表示所述视觉网络分支f
v
和听觉网络分支f
a
的权重参数,令和分别表示视觉模态和听觉模态的仿射变换向量,利用(4)求解最大关联的子空间,得到最优参数得到最优参数式(4)中,corr(
·
)表示求解变量的相关系数,表示的转置,表示的转置,表示最优视觉模态的仿射变换向量,表示最优听觉模态的仿射变换向量,表示所述视觉网络分支f
v
的最优权重参数,表示听觉网络分支f
a
的最优权重参数;利用式(5)建立模态相关损失函数L
TCCA
:步骤3设计多模态门控网络,获取引导调制模态的偏移向量以及门控调制模态表达向量;步骤3.1、以文本模态调制特征M
t
作为引导调制向量,听觉模态调制特征M
a
和视觉模态调制特征M
v
作为被引导调制向量,使用多模态门控网络,获取最终文本引导的门控调制模态表达向量F
t
;步骤3.1.1、所述多模态门控网络使用式(6)和式(7)计算引导向量和被引导调制向量所产生的视觉模态门控向量G
v
和听觉模态门控向量G
a
;;式(6...

【专利技术属性】
技术研发人员:师飘胡敏时雪峰李泽中任福继
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1