一种基于协同注意力的多模态情感分类方法及其应用技术

技术编号：36191431 阅读：14 留言：0更新日期：2022-12-31 21:07

本发明专利技术公开了一种基于协同注意力的多模态情感分类方法及其应用，包括：1获取多模态人物情感视频数据集，并进行预处理；2构建基于协同注意力的跨模态调制网络，并在相关损失的监督下，获得最终的模态调制特征表达；3设计多模态门控网络，获取引导调制模态的偏移向量以及门控调制模态表达向量；4构建情感预测模块；5多模态情感的分类预测输出。本发明专利技术通过构建协同注意力模块，对文本引导的听觉特征和文本引导的视觉特征进行相关分析，促进非语言模态的情感表达，并在多模态门控网络的调整下，使得模态之间数据充分交互，符合人类对多模态情感的综合判断过程，最终提升情感判别的精度。最终提升情感判别的精度。最终提升情感判别的精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于协同注意力的多模态情感分类方法及其应用

[0001]本专利技术涉及时序BiLSTM，BART预训练模型，Transformer注意力机制以及基于多模态协同调制的交互注意力机制。通过协同注意力、深度典型相关分析以及多模态门控机制，降低多模态语义鸿沟的影响，提高非语言模态的情感表达，实现多模态视频数据集(听觉，文本，视觉)的情感分类，属于多模态的情感计算领域。

技术介绍

[0002]在5G大发展的当下，人们不再依赖于文字或图片进行信息的表达和传递，短视频成为了主流的信息载体，包含声音、视觉、听觉的小视频成为了人们情感的宣泄方式。这种多模态技术的应用，一方面帮助了用户更好地进行情感的表达和记录，另一方面促进了视频内容的精准理解。此类技术的应用，也为个性化平台提供更好地用户服务，提升用户体验和用户黏性，进而提高产品的竞争优势。多模态情感分析在全民小视频创作的浪潮下，具有重要的社会意义。情感判别的深入研究也为人机交互的发展奠定基础，并为机器人情感陪护、情感检测等方面具有重要的意义。因此为了促进模态之间的特征交互，弥合模态间的语义鸿沟，提高情感判别的精度，设计优良的网络模型进行多模态情感分析具有十分重要的意义。
[0003]但对于现有的多模态数据样本，多种模态类型的数据共享一个统一的标签，因此不同模态数据对于情感标签的贡献度是不同的。这就产生了不同模态之间的语义鸿沟，进而导致情感不确定性的表达，甚至是情感鸿沟的出现。因此使用单一模态进行情感的判别必然存在很大的局限性。人类在进行情感交流的过程中，是根据视觉、听觉和...

【技术保护点】

【技术特征摘要】
1.一种基于协同注意力的多模态情感分类方法，其特征在于，是按如下步骤进行：步骤1、获取多模态人物情感视频数据集，将其中一段多模态数据集的真实标签记为y，并将该段多模态数据集中的听觉模态序列样本记为U
a
，视觉模态序列样本记为U
v
，文本模态序列样本记为U
t
；将所述视觉模态序列样本U
v
输入可堆叠的双向BiLSTM网络进行预处理，输出视觉模态的初始表达特征R
v
；将所述听觉模态序列样本U
a
使用wav2vec 2.0模型进行预处理，输出听觉模态的初始表达特征R
a
；使用Prompt提示学习的方法对所述文本模态序列样本U
t
进行预处理，得到文本模态提示序列样本U
′
t
，再将U
′
t
输入至BART预训练模型中进行处理，输出文本模态的初始表达特征R
t
；将视觉模态的初始表达特征R
v
、听觉模态的初始表达特征R
a
和文本模态的初始表达特征R
t
中任意一个初始表达特征记为R
s
,s∈{a,v,t}；步骤2、构建基于协同注意力的跨模态调制网络，并在相关损失的监督下，获得最终的模态调制特征表达；步骤2.1、所述跨模态调制网络由J层可堆叠的文本引导的协同注意力模块TCA和J层可堆叠的模态内的自注意力模块ITE构成；步骤2.1.1、第j层的文本引导的协同注意力模块TCA
j
利用式(1)对视觉模态的初始表达特征R
v
或听觉模态的初始表达特征R
a
以及文本模态的初始表达特征R
t
进行处理，得到文本协同注意力X
jt
→
f
：式(1)中，R
f
代表视觉模态的初始表达特征R
v
和听觉模态的初始表达特征R
a
中的任意一个初始表达特征，TCA
j
(
·
)表示文本引导的协同注意力模块TCA
j
所做的操作；步骤2.1.2、第j层的模态内的自注意力模块ITE
j
利用式(2)对同一种初始表达特征R
s
,s∈{a,v,t}进行处理，得到模态内自注意力理，得到模态内自注意力式(2)中，ITE
j
(
·
)表示ITE
j
模块所做的操作；步骤2.2、使用跨模态调制网络获取多模态调制特征；步骤2.2.1、J层可堆叠的模态内的自注意力模块ITE根据式(2)对初始表达特征R
t
进行处理，得到第J层模态内的自注意力模块ITE
J
输出的文本模态调制特征并简记为M
t
；步骤2.2.2、第j层的模态内的自注意力模块ITE
j
根据式(2)对初始表达特征R
f
进行处理，得到模态内自注意力再由第j层的文本引导的协同注意力模块TCA
j
利用式(3)对和M
t
进行处理，得到文本增强模态的输出特征从而由J层可堆叠的文本引导的协同注意力模块TCA和J层可堆叠的模态内的自注意力模块ITE交替处理后，得到第J层文本引导的协同注意力模块TCA
J
输出的文本逐级指导下的模态调制特征并简记为M
f
；
式(3)中，M
f
代表文本指导下的听觉模态调制特征M
a
和文本指导下的视觉模态调制特征M
v
的任意一个模态调制特征；步骤2.4、计算跨模态调制网络的阶段损失；将跨模态调制网络中输出M
a
的听觉网络分支记为f
a
，将跨模态调制网络中输出M
v
的视觉网络分支记为f
v
，令W
v
和W
a
分别表示所述视觉网络分支f
v
和听觉网络分支f
a
的权重参数，令和分别表示视觉模态和听觉模态的仿射变换向量，利用(4)求解最大关联的子空间，得到最优参数得到最优参数式(4)中，corr(
·
)表示求解变量的相关系数，表示的转置，表示的转置，表示最优视觉模态的仿射变换向量，表示最优听觉模态的仿射变换向量，表示所述视觉网络分支f
v
的最优权重参数，表示听觉网络分支f
a
的最优权重参数；利用式(5)建立模态相关损失函数L
TCCA
：步骤3设计多模态门控网络，获取引导调制模态的偏移向量以及门控调制模态表达向量；步骤3.1、以文本模态调制特征M
t
作为引导调制向量，听觉模态调制特征M
a
和视觉模态调制特征M
v
作为被引导调制向量，使用多模态门控网络，获取最终文本引导的门控调制模态表达向量F
t
；步骤3.1.1、所述多模态门控网络使用式(6)和式(7)计算引导向量和被引导调制向量所产生的视觉模态门控向量G
v
和听觉模态门控向量G
a
；；式(6...

【专利技术属性】
技术研发人员：师飘，胡敏，时雪峰，李泽中，任福继，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人