【技术实现步骤摘要】
一种基于模态增强卷积图的多模态情感分类方法
[0001]本专利技术属于自然语言处理、语音、视觉交叉领域内的多模态情感识别领域,具体涉及一种基于模态增强卷积图的多模态情感分类方法,具体是通过一种基于文本驱动的图卷积网络以及注意力机制的融合网络技术,去判断被试情感状态的方法。
技术介绍
[0002]随着多媒体技术的快速发展,多模态情感分析已经成为一个热门话题,如何对不同模态的数据进行高效的情感分析是人工智能的一大挑战。与单个模态的情感分析相比,多模态情感分析可以帮助更有效、更准确地理解数据背后的情感,因此被广泛用于情感分析任务中。一般来说,不同的模态作为一种补充,可以更好地弥补语义和情感的分歧。
[0003]然而,以前的研究在多模态学习任务中得到的融合结构是一个三元对称结构,其中双向跨模态的建模方式是相同的。值得注意的是,在以前的许多研究中发现分布在三种模态中的关键信息是不平衡的,其中文本模态与其他模态(视觉和听觉)相比包含更多的情感信息。因此,在不考虑这三种模态的相对重要性的前提下,并不能正确地整合它们,从而影响最终的任务表现。
技术实现思路
[0004]本专利技术的第一个目的是针对现有技术的不足,提出一种基于模态增强卷积图的多模态情感分类方法。本专利技术提出了一个新的模态增强融合框架,基于图卷积神经网络,为融合未对齐的多模态序列提供了一个有效的方法。在文本模态的帮助下,首先使用多模态增强模块来增强视觉和听觉模态以获得具有更强情感鉴别性的模态信息,从而帮助后续的聚合过程。此外,还构建了文本驱动的 ...
【技术保护点】
【技术特征摘要】
1.一种基于模态增强卷积图的多模态情感分类方法,其特征在于包括以下步骤:步骤(1)、获取多模态数据;所述多模态数据包括语音模态、视频模态、文本模态;步骤(2)、多模态信息数据预处理,抽取初级表征;步骤(3)、利用多模态增强,获取与文本模态最相关的语音模态和视频模态中的复杂情感上下文相关信息;具体是:3
‑
1将文本模态初级特征数据X
t
和其他模态初级特征数据X
s
,s∈{a,v}通过矩阵点乘运算映射到一个跨模态情感交互空间,即构建一个联合的跨模态情感表示空间,表示为:X
m
=X
t
⊙
X
s
,s∈{a,v}#(3)其中
⊙
表示矩阵点乘运算;a、v分别表示语音模态和视频模态;3
‑
2由于其他模态数据的信息在跨模态联合表示空间中与文本模态一起被丰富起来,利用L2范数归一化联合表示数据,用以计算文本模态对其他两种模态的影响,表示为:X
′
m
=||X
m
||2#(4)3
‑
3利用归一化后联合表示数据改变输入时其他模态数据X
s
在其原始语义空间中的位置,得到文本丰富处理后的其他模态数据X'
s
,表示为:X'
s
=X'
m
+X
s
,s∈{a,v}#(5)步骤(4)、构造多模态卷积图进行模态融合为了捕捉跨模态的情感信息,构建一个谱域图卷积网络编码多模态语境信息,进行文本驱动的跨模态融合,得到文本驱动下的多模态情感融合信息h
s
;所述谱域图卷积网络包括2N个多模态无向图,其中N表示文本模态的数量,具体包括N个文本
‑
语音模态图G
ta
=(V
ta
,E
ta
),以及N个文本
‑
视觉图G
tv
=(V
tv
,E
tv
);V
ts
,s∈{v,a}表示文本模态分别与语音模态、视频模态的话语节点;是一个包含不同模态关系的集合,表示时域和特征域中的情感语境;步骤(5)、对文本驱动下的多模态情感融合信息h
s
进行多模态情感分类。2.根据权利要求1所述方法,其特征在于步骤(2)具体是:2
‑
1将语音模态和视频模态数据均使用一维卷积网络卷积到相同的时间维度,得到一维卷积处理后的视觉模态M'
v
和语音模态M'
a
,再使用双向长短期记忆网络LSTM处理得到当前模态的初级表征形态,表示为:其中a、v分别表示语音模态和视频模态;M'
s
表示模态s的一维卷积处理后数据;2
‑
2将文本模态数据通过BERTEmbedding转换成初级特征形态,表示为:X
t
=BERT Emedding(m0,m1,
…
,m
n+1
)#(2)其中t表示文本模态;m
n+1
表示第n+1个文本数据。3.根据权利要求1所述方法,其特征在于步骤(4)每个多模态无向图的构...
【专利技术属性】
技术研发人员:孔万增,倪斌斌,唐佳佳,杨宇涛,戴玮成,朱莉,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。