一种基于注意力引导双向胶囊网络的多模态情感分类方法技术

技术编号:32510054 阅读:23 留言:0更新日期:2022-03-02 10:52
本发明专利技术公开一种基于注意力引导双向胶囊网络的多模态情感分类方法。由于具有可训练的视点不变变换特性,胶囊网络目前在分析多模态学习的异质性问题上已经证明了它的有效性。在预处理阶段,本发明专利技术提供了多模态动态交互增强模块,在特征层面上显式地增强了跨模态同质性,这有利于模型在更加紧凑的局部公共空间内有效地执行多模态解耦过程。在此基础上,提出了基于注意力引导的双向胶囊网络(ABCN),通过新的双向动态路由机制来探索全局多模态公共消息。然后,利用全局多模态上下文来指导多模态动态路由过程,同时研究每个模态的全局最优公共线索。这大大提高了学习效率,并提供了在所有模式之间架起桥梁的优越能力。所有模式之间架起桥梁的优越能力。所有模式之间架起桥梁的优越能力。

【技术实现步骤摘要】
一种基于注意力引导双向胶囊网络的多模态情感分类方法


[0001]本专利技术属于自然语言处理、视觉、语音交叉领域内的多模态情感识别领域,涉及一种基于注意力引导双向胶囊网络的多模态情感分类方法,具体是一种基于胶囊网络学习以及注意力机制的注意力引导的双向胶囊网络技术,对多模态信息进行双向探索解耦及融合,从而判断被试情感状态的方法。

技术介绍

[0002]多模态学习提高了人们对人工智能系统的兴趣,语言、声学和视觉模式被广泛用于分析相关的研究任务。直观上,单个模态能够从特定的角度分析与任务相关的信息,而多种模态的整合则有利于我们有效地推理出多模态信息的复杂而全面的含义。由于不同内容之间的深度推理,相应的融合模型学会隐式地将联合的和本质的跨模态相互关联纳入最终的多模态表示。然而,传统的多模态情感分类方法在处理模态差异方面存在局限性,这并不能有效地减少模式之间的冗余。最近,基于胶囊的网络在计算机视觉中,借助可训练的视点不变变换,在捕获各种来源之间的部分

整体关系方面取得了显著的性能,因此受到了广泛的关注。但是,上述技术只是通过自下而上的注意力来关注表示层和输出层之间的空间关系。这确实忽略了多模态之间内在的上下文关系,未能为每个模态提供全局指导,导致局部次优解耦过程。

技术实现思路

[0003]本专利技术的一个目的是针对现有技术的不足,提出一种基于注意力引导双向胶囊网络的多模态情感分类方法。在预处理阶段,提出了多模态动态交互增强模块,以显式地增加原始特征空间的跨模态同质性,这自然为我们提供了在更紧凑的局部公共空间内有效执行多模态解耦任务的好处。此外,通过设计新的双向动态路由机制,提出了探索全局最优多模态公共信息的注意力引导的双向胶囊网络(ABCN)。具体来说,ABCN采用自上向下的基于注意力的模块(Transformer的编码器),直接在特性级别提取内在的多模态上下文。然后,利用全局多模态上下文来指导多模态动态路由过程,使得学习模型具有在所有模态的指导下同时挖掘各模态上下文感知公共特性的强大能力。换句话说,全局最优推理流可以在多种模态之间有效度量。值得注意的是,与传统的胶囊网络相比,我们基于胶囊的架构用提出的多头卷积组件代替了变换矩阵。这在保持胶囊框架优点的同时,考虑了所需的卷积特性,从而提出了多路、全面的信息流。
[0004]一种基于注意力引导双向胶囊网络的多模态情感分类方法,采用的网络包括多模态动态交互增强模块和ABCN。多模态动态交互增强模块用于增强特征水平上的跨模态同质性。ABCN用于探索全局多模态公共线索。
[0005]该方法的具体步骤如下:
[0006]步骤1、获取多模态数据。
[0007]提取被测对象的三种模态数据;三种模态数据分别记为
T
i
(i∈{a,v,t})是时域维度的尺寸,d
i
(i∈{a,v,t})是每一个时刻的特征向量的长度。
[0008]步骤2、对三种模态数据进行交互增强。
[0009]步骤3、注意力引导的双向胶囊网络。
[0010]3‑
1.以步骤2的输出作为输入,通过注意力引导的双向胶囊网络提取全局多模态公共信息;注意力引导的双向胶囊网络包括低层多模态表示胶囊和高层模态感知公共胶囊其中,N
u
和N
v
分别为低层和高层胶囊的数量;
[0011]每个低层多模态表示胶囊u
i
,均进行卷积投影,得到新的胶囊如下:
[0012][0013]其中,Conv(
·
)为卷积组件;kernel为可变卷积核。
[0014]进一步建立多头的投票矩阵如下:
[0015][0016]其中,s为卷积投影头的序数;kernel为第s个可变卷积核;i=1,2,...,Nu。
[0017]3‑
2.利用Transformer的编码器从表现空间中挖掘内在的多模态上下文;第s个头的多模态上下文atten
[s]的表达式如下:
[0018][0019]其中,Tran(
·
)表示Transformer的编码器。
[0020]3‑
3.采用具有N
v
迭代的动态路由过程,获取多种模态之间的全局最优公共表示;在每次迭代时,利用耦合系数来分析和之间的信息流,该耦合系数通过基于初始化为0的临时累积变量计算得到,具体表达式如下:
[0021][0022]3‑
4.以胶囊的加权和为基础,并借助相应的和多模态上下文atten
[s],获得高层胶囊如下:
[0023][0024]3‑
5.通过卷积操作,多头的高层胶囊集成到最终的模态感知公共信息{com
a
,com
v
,com
t
}中;然后,通过卷积操作将所有感知模态的公共信息合并到最终的多模态公共表示common=conv(concat(com
a
,com
v
,com
t
),kernel)。
[0025]步骤四、将步骤三所得的多模态公共表示common输入线性分类层,将输出信息与情感类别标签进行对比,得到被测对象在提取被测数据时所处的情感分类情况。
[0026]作为优选,步骤1中所述的三种模态数据分别为音频模态X
a
、视频模态X
v
、文本模态X
t

[0027]作为优选,步骤2中,采用多模态动态交互增强模块对三种模态数据进行交互增强。多模态动态交互增强模块包括一个或多个进程头;每个进程头包括一个或多个自适应
迭代。进程头数量为M;每个进程头中自适应迭代的数量为N。
[0028]多模态动态交互增强模块获取文本感知的音频表示的过程如下:
[0029]对于单个进程头情况,和将先被输入模块中以寻找相似系数;经过N次迭代的文本增强的音频表示公式如下:
[0030][0031][0032]其中,为第m个进程头的第n次自适应迭代得到的文本增强音频表示,为第m个进程头的第n

1次自适应迭代得到的文本增强音频表示,为第m个进程头的第i次自适应迭代得到的文本增强音频表示。softmax(
·
)表示softmax函数运算。m=1,2,...,M。
[0033]利用每个进程头迭代得到的文本增强的音频表示获取多路文本增强表示X
aMulHead
,并进一步获取文本感知的音频表示计算过程如下:
[0034][0035][0036]其中,concat(
·
)为多头的连接函数;Conv(
·
)为卷积组件。
[0037]获取文本感知的音频表示的过程与获取文本感知的音频表示的过程相同;之后,将与以学习得到的第一比例C
a
和第二比例C
v
加到文本模态X...

【技术保护点】

【技术特征摘要】
1.一种基于注意力引导双向胶囊网络的多模态情感分类方法,其特征在于:步骤1、获取多模态数据;提取被测对象的三种模态数据;三种模态数据分别记为T
i
(i∈{a,v,t})是时域维度的尺寸,d
i
(i∈{a,v,t})是每一个时刻的特征向量的长度;步骤2、对三种模态数据进行交互增强;步骤3、注意力引导的双向胶囊网络;3

1.以步骤2的输出作为输入,通过注意力引导的双向胶囊网络提取全局多模态公共信息;注意力引导的双向胶囊网络包括低层多模态表示胶囊和高层模态感知公共胶囊其中,N
u
和N
v
分别为低层和高层胶囊的数量;每个低层多模态表示胶囊u
i
,均进行卷积投影,得到新的胶囊如下:其中,Conv(
·
)为卷积组件;kernel为可变卷积核;进一步建立多头的投票矩阵如下:其中,s为卷积投影头的序数;kernel为第s个可变卷积核;i=1,2,...,Nu;3

2.利用Transformer的编码器从表现空间中挖掘内在的多模态上下文;第s个头的多模态上下文atten
[s]
的表达式如下:其中,Tran(
·
)表示Transformer的编码器;3

3.采用具有N
v
迭代的动态路由过程,获取多种模态之间的全局最优公共表示;在每次迭代时,利用耦合系数来分析和之间的信息流,该耦合系数通过基于初始化为0的临时累积变量计算得到,具体表达式如下:3

4.以胶囊的加权和为基础,并借助相应的和多模态上下文atten
[s]
,获得高层胶囊如下:3

5.通过卷积操作,多头的高层胶囊集成到最终的模态感知公共信息{com
a
,com
v
,com
t
}中;然后,通过卷积操作将所有感知模态的公共信息合并到最终的多模态公共表示common=conv(concat(com
a
,com
v
,com
t
),kernel);步骤四、将步骤三所得的多模态公共表示common输入线性分类层,将输出信息与情感类别标签进行对比,得到被测对象在提取被测数据时所处的情感分类情况。2.根据权利要求1所述的一种基于注意力引导双向胶囊网络的多模态情感分类方法,
其特征在于:步骤1中所述的三种模态数据分别为音频模态X
a
、视频模态X
v
、文本模态X

【专利技术属性】
技术研发人员:孔万增刘栋军唐佳佳金宣妤
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1