【技术实现步骤摘要】
一种基于协同注意力的多模态情感分类方法及其应用
[0001]本专利技术涉及时序BiLSTM,BART预训练模型,Transformer注意力机制以及基于多模态协同调制的交互注意力机制。通过协同注意力、深度典型相关分析以及多模态门控机制,降低多模态语义鸿沟的影响,提高非语言模态的情感表达,实现多模态视频数据集(听觉,文本,视觉)的情感分类,属于多模态的情感计算领域。
技术介绍
[0002]在5G大发展的当下,人们不再依赖于文字或图片进行信息的表达和传递,短视频成为了主流的信息载体,包含声音、视觉、听觉的小视频成为了人们情感的宣泄方式。这种多模态技术的应用,一方面帮助了用户更好地进行情感的表达和记录,另一方面促进了视频内容的精准理解。此类技术的应用,也为个性化平台提供更好地用户服务,提升用户体验和用户黏性,进而提高产品的竞争优势。多模态情感分析在全民小视频创作的浪潮下,具有重要的社会意义。情感判别的深入研究也为人机交互的发展奠定基础,并为机器人情感陪护、情感检测等方面具有重要的意义。因此为了促进模态之间的特征交互,弥合模态间的语义鸿沟,提高情感判别的精度,设计优良的网络模型进行多模态情感分析具有十分重要的意义。
[0003]但对于现有的多模态数据样本,多种模态类型的数据共享一个统一的标签,因此不同模态数据对于情感标签的贡献度是不同的。这就产生了不同模态之间的语义鸿沟,进而导致情感不确定性的表达,甚至是情感鸿沟的出现。因此使用单一模态进行情感的判别必然存在很大的局限性。人类在进行情感交流的过程中,是根据视觉、听觉和 ...
【技术保护点】
【技术特征摘要】
1.一种基于协同注意力的多模态情感分类方法,其特征在于,是按如下步骤进行:步骤1、获取多模态人物情感视频数据集,将其中一段多模态数据集的真实标签记为y,并将该段多模态数据集中的听觉模态序列样本记为U
a
,视觉模态序列样本记为U
v
,文本模态序列样本记为U
t
;将所述视觉模态序列样本U
v
输入可堆叠的双向BiLSTM网络进行预处理,输出视觉模态的初始表达特征R
v
;将所述听觉模态序列样本U
a
使用wav2vec 2.0模型进行预处理,输出听觉模态的初始表达特征R
a
;使用Prompt提示学习的方法对所述文本模态序列样本U
t
进行预处理,得到文本模态提示序列样本U
′
t
,再将U
′
t
输入至BART预训练模型中进行处理,输出文本模态的初始表达特征R
t
;将视觉模态的初始表达特征R
v
、听觉模态的初始表达特征R
a
和文本模态的初始表达特征R
t
中任意一个初始表达特征记为R
s
,s∈{a,v,t};步骤2、构建基于协同注意力的跨模态调制网络,并在相关损失的监督下,获得最终的模态调制特征表达;步骤2.1、所述跨模态调制网络由J层可堆叠的文本引导的协同注意力模块TCA和J层可堆叠的模态内的自注意力模块ITE构成;步骤2.1.1、第j层的文本引导的协同注意力模块TCA
j
利用式(1)对视觉模态的初始表达特征R
v
或听觉模态的初始表达特征R
a
以及文本模态的初始表达特征R
t
进行处理,得到文本协同注意力X
jt
→
f
:式(1)中,R
f
代表视觉模态的初始表达特征R
v
和听觉模态的初始表达特征R
a
中的任意一个初始表达特征,TCA
j
(
·
)表示文本引导的协同注意力模块TCA
j
所做的操作;步骤2.1.2、第j层的模态内的自注意力模块ITE
j
利用式(2)对同一种初始表达特征R
s
,s∈{a,v,t}进行处理,得到模态内自注意力理,得到模态内自注意力式(2)中,ITE
j
(
·
)表示ITE
j
模块所做的操作;步骤2.2、使用跨模态调制网络获取多模态调制特征;步骤2.2.1、J层可堆叠的模态内的自注意力模块ITE根据式(2)对初始表达特征R
t
进行处理,得到第J层模态内的自注意力模块ITE
J
输出的文本模态调制特征并简记为M
t
;步骤2.2.2、第j层的模态内的自注意力模块ITE
j
根据式(2)对初始表达特征R
f
进行处理,得到模态内自注意力再由第j层的文本引导的协同注意力模块TCA
j
利用式(3)对和M
t
进行处理,得到文本增强模态的输出特征从而由J层可堆叠的文本引导的协同注意力模块TCA和J层可堆叠的模态内的自注意力模块ITE交替处理后,得到第J层文本引导的协同注意力模块TCA
J
输出的文本逐级指导下的模态调制特征并简记为M
f
;
式(3)中,M
f
代表文本指导下的听觉模态调制特征M
a
和文本指导下的视觉模态调制特征M
v
的任意一个模态调制特征;步骤2.4、计算跨模态调制网络的阶段损失;将跨模态调制网络中输出M
a
的听觉网络分支记为f
a
,将跨模态调制网络中输出M
v
的视觉网络分支记为f
v
,令W
v
和W
a
分别表示所述视觉网络分支f
v
和听觉网络分支f
a
的权重参数,令和分别表示视觉模态和听觉模态的仿射变换向量,利用(4)求解最大关联的子空间,得到最优参数得到最优参数式(4)中,corr(
·
)表示求解变量的相关系数,表示的转置,表示的转置,表示最优视觉模态的仿射变换向量,表示最优听觉模态的仿射变换向量,表示所述视觉网络分支f
v
的最优权重参数,表示听觉网络分支f
a
的最优权重参数;利用式(5)建立模态相关损失函数L
TCCA
:步骤3设计多模态门控网络,获取引导调制模态的偏移向量以及门控调制模态表达向量;步骤3.1、以文本模态调制特征M
t
作为引导调制向量,听觉模态调制特征M
a
和视觉模态调制特征M
v
作为被引导调制向量,使用多模态门控网络,获取最终文本引导的门控调制模态表达向量F
t
;步骤3.1.1、所述多模态门控网络使用式(6)和式(7)计算引导向量和被引导调制向量所产生的视觉模态门控向量G
v
和听觉模态门控向量G
a
;;式(6...
【专利技术属性】
技术研发人员:师飘,胡敏,时雪峰,李泽中,任福继,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。