一种基于模态增强卷积图的多模态情感分类方法技术

技术编号:36497700 阅读:14 留言:0更新日期:2023-02-01 15:17
本发明专利技术公开一种基于模态增强卷积图的多模态情感分类方法。本发明专利技术提出了一个新的模态增强融合框架,它基于图卷积神经网络,为融合未对齐的多模态序列提供了一个有效的方法。在文本模态的帮助下,首先使用多模态增强模块来增强视觉和听觉模态以获得具有更强情感鉴别性的模态信息,从而帮助后续的聚合过程。此外,还构建了文本驱动的多模态特征图来进行模态融合,这可以有效地处理图卷积聚合过程中各模态之间的不平衡问题。最后将模态增强卷积图中提取的融合信息整合到文本表征中,从而动态地将原始文本表征向最准确的多模态语义空间转化。相比于现有多模态融合方法,本发明专利技术的结果更优。更优。更优。

【技术实现步骤摘要】
一种基于模态增强卷积图的多模态情感分类方法


[0001]本专利技术属于自然语言处理、语音、视觉交叉领域内的多模态情感识别领域,具体涉及一种基于模态增强卷积图的多模态情感分类方法,具体是通过一种基于文本驱动的图卷积网络以及注意力机制的融合网络技术,去判断被试情感状态的方法。

技术介绍

[0002]随着多媒体技术的快速发展,多模态情感分析已经成为一个热门话题,如何对不同模态的数据进行高效的情感分析是人工智能的一大挑战。与单个模态的情感分析相比,多模态情感分析可以帮助更有效、更准确地理解数据背后的情感,因此被广泛用于情感分析任务中。一般来说,不同的模态作为一种补充,可以更好地弥补语义和情感的分歧。
[0003]然而,以前的研究在多模态学习任务中得到的融合结构是一个三元对称结构,其中双向跨模态的建模方式是相同的。值得注意的是,在以前的许多研究中发现分布在三种模态中的关键信息是不平衡的,其中文本模态与其他模态(视觉和听觉)相比包含更多的情感信息。因此,在不考虑这三种模态的相对重要性的前提下,并不能正确地整合它们,从而影响最终的任务表现。

技术实现思路

[0004]本专利技术的第一个目的是针对现有技术的不足,提出一种基于模态增强卷积图的多模态情感分类方法。本专利技术提出了一个新的模态增强融合框架,基于图卷积神经网络,为融合未对齐的多模态序列提供了一个有效的方法。在文本模态的帮助下,首先使用多模态增强模块来增强视觉和听觉模态以获得具有更强情感鉴别性的模态信息,从而帮助后续的聚合过程。此外,还构建了文本驱动的多模态特征图来进行模态融合,这可以有效地处理图卷积聚合过程中各模态之间的不平衡问题。最后,将模态增强卷积图中提取的融合信息整合到文本表征中,从而动态地将原始文本表征向最准确的多模态语义空间转化。
[0005]本专利技术所采用的技术方案是:
[0006]一种基于模态增强卷积图的多模态情感分类方法,包括以下步骤:
[0007]步骤(1)、获取多模态数据
[0008]所述多模态数据包括语音模态、视频模态、文本模态;
[0009]多模态融合的目的是为了获得同一个任务下多种模态数据之间的互补性和一致性信息,从而增强情感分析的任务表现;
[0010]步骤(2)、多模态信息数据预处理,抽取初级表征
[0011]为了多模态数据在特征层面上进行多模态融合操作,采用不同的网络抽取每一个模态数据的初级特征表示,具体是:
[0012]2‑
1将语音模态和视频模态数据均使用一维卷积网络将它们卷积到相同的时间维度,得到一维卷积处理后的视觉模态M'
v
和语音模态M'
a
,再使用双向长短期记忆网络(LSTM)处理得到当前模态的初级表征形态,表示为:
[0013][0014]其中a、v分别表示语音模态和视频模态;M'
s
表示模态s的一维卷积处理后数据;
[0015]2‑
2将文本模态数据通过BERT Embedding(一种基于Transformer的双向编码器表示)转换成初级特征形态,表示为:
[0016]X
t
=BERT Emedding(m0,m1,

,m
n+1
)#(2)
[0017]其中t表示文本模态;m
n+1
表示第n+1个文本数据;
[0018]步骤(3)、利用多模态增强,获取与文本模态最相关的语音模态和视频模态中的复杂情感上下文相关信息;具体是:
[0019]3‑
1将文本模态初级表征数据X
t
和其他模态初级表征数据X
s
,s∈{a,v}通过矩阵点乘运算一起映射到一个跨模态情感交互空间,即构建一个联合的跨模态情感表示空间,表示为:
[0020]X
m
=X
t

X
s
,s∈{a,v}#(3)
[0021]其中

表示矩阵点乘运算。
[0022]3‑
2由于其他模态数据的信息在跨模态联合表示空间中与文本模态一起被丰富起来,利用L2范数归一化联合表示数据,用以计算文本模态对其他两种模态的影响,表示为:
[0023]X

m
=||X
m
||2#(4)
[0024]3‑
3对联合表示数据进行归一化后,用以改变输入时其他模态数据X
s
在其原始语义空间中的位置,最后得到文本丰富处理后的其他模态数据X'
s
,表示为:
[0025]X

s
=X

m
+X
s
,s∈{a,v}#(5)
[0026]上述操作可以在一定程度上丰富语音模态和视频模态内部的情感信息,从而获得具有更多情感状态判别能力的模态。
[0027]步骤(4)、构造多模态卷积图进行模态融合
[0028]为了捕捉跨模态的情感信息,构建一个谱域图卷积网络编码多模态语境信息,进行文本驱动的跨模态融合。
[0029]所述谱域图卷积网络包括2N个多模态无向图,其中N表示文本模态的数量,具体包括N个文本

语音模态图G
ta
=(V
ta
,E
ta
),以及N个文本

视觉图G
tv
=(V
tv
,E
tv
)。V
ts
,s∈{v,a}表示文本模态分别与语音模态、视频模态的话语节点,图中的节点数量可以根据模态的时间维度自由划分。s∈{v,a},是一个包含不同模态关系的集合,它表示时域和特征域中的情感语境。
[0030]每个多模态无向图的构建方法如下:
[0031]文本模态、语音模态、视频模态的节点表示为i表示数据在数据集中的索引,i∈{0,1,2
……
,n}。
[0032]为了捕捉不同节点之间的相关性,使用余弦距离计算每个多模态无向图节点之间的边缘权重,具体表示如下:
[0033][0034]基于上述节点和边缘权重的基本信息,构建多个浅层双模无向图,以计算文本模态与其他两个模态之间的相关性。具体来说,无向图G=(V,E)的重述图拉普拉斯矩阵
[0035][0036]其中表示邻接矩阵,表示图G的对角线矩阵,I表示单位矩阵,表示邻接矩阵与单位矩阵的和。
[0037]不同层的图卷积迭代可以表示为:
[0038][0039]其中α和β均表示大于0小于1的两个不同超参数,σ表示激活函数,W(l)是可学习权重矩阵,I表示常数映射;设置其中η也是一个超参数。第一层H(0)的残差连接被添加到表征常数映射I被添加到权重矩阵W(l)。
[0040]当每张图迭代完成后,将每张图的特征按特征维度拼接即可得到文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于模态增强卷积图的多模态情感分类方法,其特征在于包括以下步骤:步骤(1)、获取多模态数据;所述多模态数据包括语音模态、视频模态、文本模态;步骤(2)、多模态信息数据预处理,抽取初级表征;步骤(3)、利用多模态增强,获取与文本模态最相关的语音模态和视频模态中的复杂情感上下文相关信息;具体是:3

1将文本模态初级特征数据X
t
和其他模态初级特征数据X
s
,s∈{a,v}通过矩阵点乘运算映射到一个跨模态情感交互空间,即构建一个联合的跨模态情感表示空间,表示为:X
m
=X
t

X
s
,s∈{a,v}#(3)其中

表示矩阵点乘运算;a、v分别表示语音模态和视频模态;3

2由于其他模态数据的信息在跨模态联合表示空间中与文本模态一起被丰富起来,利用L2范数归一化联合表示数据,用以计算文本模态对其他两种模态的影响,表示为:X

m
=||X
m
||2#(4)3

3利用归一化后联合表示数据改变输入时其他模态数据X
s
在其原始语义空间中的位置,得到文本丰富处理后的其他模态数据X'
s
,表示为:X'
s
=X'
m
+X
s
,s∈{a,v}#(5)步骤(4)、构造多模态卷积图进行模态融合为了捕捉跨模态的情感信息,构建一个谱域图卷积网络编码多模态语境信息,进行文本驱动的跨模态融合,得到文本驱动下的多模态情感融合信息h
s
;所述谱域图卷积网络包括2N个多模态无向图,其中N表示文本模态的数量,具体包括N个文本

语音模态图G
ta
=(V
ta
,E
ta
),以及N个文本

视觉图G
tv
=(V
tv
,E
tv
);V
ts
,s∈{v,a}表示文本模态分别与语音模态、视频模态的话语节点;是一个包含不同模态关系的集合,表示时域和特征域中的情感语境;步骤(5)、对文本驱动下的多模态情感融合信息h
s
进行多模态情感分类。2.根据权利要求1所述方法,其特征在于步骤(2)具体是:2

1将语音模态和视频模态数据均使用一维卷积网络卷积到相同的时间维度,得到一维卷积处理后的视觉模态M'
v
和语音模态M'
a
,再使用双向长短期记忆网络LSTM处理得到当前模态的初级表征形态,表示为:其中a、v分别表示语音模态和视频模态;M'
s
表示模态s的一维卷积处理后数据;2

2将文本模态数据通过BERTEmbedding转换成初级特征形态,表示为:X
t
=BERT Emedding(m0,m1,

,m
n+1
)#(2)其中t表示文本模态;m
n+1
表示第n+1个文本数据。3.根据权利要求1所述方法,其特征在于步骤(4)每个多模态无向图的构...

【专利技术属性】
技术研发人员:孔万增倪斌斌唐佳佳杨宇涛戴玮成朱莉
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1