当前位置: 首页 > 专利查询>厦门大学专利>正文

一种基于情感引导的跨模态视频情感分析方法技术

技术编号:36965629 阅读:50 留言:0更新日期:2023-03-22 19:26
一种基于情感引导的跨模态视频情感分析方法,涉及自然语言处理。围绕如何应对跨模态原始数据中的情感信息淡化问题,提出基于增强文本embedding的情感引导机制和基于提示学习Prompt的情感引导机制。根据一个预定义好的情感词典匹配出源数据中的情感内容。基于增强文本embedding的情感引导机制通过对文本模态情感内容的注意力权重进行一定的干预。基于提示学习情感引导机制引入一个带有情感槽位的提示Prompt模版,通过情感预测的辅助任务增加模型对情感信息的学习能力和关注力度。该情感引导机制能达到甚至超越目前主流模型水平,且具有泛化到主流模型上的能力。几种情感引导机制的消融实验结果证明各自的有效性。的消融实验结果证明各自的有效性。的消融实验结果证明各自的有效性。

【技术实现步骤摘要】
一种基于情感引导的跨模态视频情感分析方法


[0001]本专利技术属于自然语言处理领域,尤其是涉及一种基于情感引导的跨模态视频情感分析方法,通过引入情感引导机制来改善视频情感分析任务中的情感淡化问题。

技术介绍

[0002]情感分析技术最早指的是文本情感分析,该技术涉及文本挖掘、计算机语言学和自然语言处理等领域,旨在对文本进行信息抽取和归纳推理,从而判断文本中的主观情感极性。在情感分析的相关任务中,最常见的一类是判断人的情感倾向性,简单的情感倾向如正向、负向和中性情感,也有较为复杂的倾向,比如“喜”、“怒”、“哀”、“乐”等具体情感。
[0003]随着互联网和社交媒体的发展,越来越多用户喜欢结合图片、视频等非文本内容一起表达个人的情感,因此在文本情感分析的基础上进行跨模态情感分析的相关研究,引起了越来越多学者的关注。尤其是近年来,短视频在各个年龄段的人群中都得到广泛的流行,对视频的情感倾向性进行分析也成为一种流行的趋势。因此,跨模态视频情感分析技术将传统文本情感分析的相关应用扩展到了更大的平台。
[0004]视频数据中除了文本内容,还包括语音和图像的非文本内容,三种内容分别被称为文本模态、音频模态和视觉模态,本专利技术的研究对象就是视频这种跨模态的数据。传统情感分析是在文本单一模态的基础上进行的研究,文本模态的情感分析已经相对非常成熟了,同时,音频和视觉各自的单一模态情感分析也都有相关的成熟工作。然而,单一模态的相关技术不足以支撑对视频这样的跨模态数据进行处理和分析,正如人的表达方式包含语言内容、声音和动作的综合信息,需要综合理解,跨模态的数据分析也需要对文本、音频和视觉模态综合考虑。那么,如何进行模态之间的融合、如何进行跨模态建模、如何权衡不同模态在不同任务上的贡献比重等等,都是视频跨模态情感分析中值得深思的关键问题。
[0005]在视频跨模态情感分析领域,现有方法存在一个问题:情感淡化。随着深度学习模型的网络层数逐渐增加,跨模态数据本身包含的强烈情感信息受到关注的权重会趋于平均化。

技术实现思路

[0006]本专利技术的目的在于提供一种基于情感引导的跨模态视频情感分析方法。针对如何应对跨模态原始数据中的情感信息淡化问题,提出两种情感引导机制。在解决情感信息弥散的问题中,为了进一步加强文本情感内容和音频、视觉模态的情感关联信息,分别又提出基于增强文本embedding的情感引导机制以及基于提示学习Prompt的跨模态情感引导机制。前者可以充分利用文本数据本身的情感信息,减少文本情感内容的消散,加强文本模态中的情感信息对其他两个模态的引导。后者则可以通过辅助的情感预测任务,加强模型对跨模态关联情感的关注度和学习能力。
[0007]本专利技术包括以下步骤:
[0008]a、引入预定义好的情感词字典;
[0009]b、提取模态浅层特征;
[0010]c、将模态浅层特征输入带有情感引导机制的跨模态多流Transformer模型或跨模态单流Transformer模型中,得到情感分析结果。
[0011]在步骤a中,所述情感词字典用于匹配出情感的位置,增强情感信息对应位置的特征在情感分析中的影响;对于每个视频片段给定的文本输入,首先利用情感词字典,匹配出文本序列中的情感词,然后用一组与文本长度相同的布尔值来记录文本序列中的每个词是否表示情感内容,并把情感部分的布尔值标记为1。
[0012]在步骤b中,所述提取模态浅层特征的具体步骤是用预训练好的语言模型提取文本模态的词向量,用声学分析框架提取如音高、语音极性、声门闭合瞬间和频谱包络等特征,用面部表情分析工具包提取面部特征。
[0013]在步骤c中,对于增强文本embedding的情感引导机制采用的是跨模态多流Transformer模型,该模型可通过步骤a干预情感信息权重;基于提示学习Prompt的情感引导机制采用的是跨模态单流Transformer模型,该模型引入一个带情感槽位的提示Prompt模板,通过情感预测的辅助任务让模型动态地学习情感权重,增加模型对情感信息的学习能力和关注力度。将模态浅层特征输入这两种情感引导模型均可获得情感分析结果。
[0014]本专利技术围绕如何应对跨模态原始数据中的情感信息淡化问题,提出基于增强文本embedding的情感引导机制和基于提示学习Prompt的情感引导机制。根据一个预定义好的情感词典匹配出源数据中的情感内容。基于增强文本embedding的情感引导机制通过对文本模态情感内容的注意力权重进行一定的干预。基于提示学习情感引导机制引入一个带有情感槽位的提示Prompt模版,通过情感预测的辅助任务增加模型对情感信息的学习能力和关注力度。实验表明本专利技术的情感引导机制能够达到甚至超越目前的主流模型水平,且具有泛化到主流模型上的能力。几种情感引导机制的消融实验结果证明各自的有效性。
附图说明
[0015]图1是本专利技术提出的增强文本embedding的跨模态多流模型整体结构图。
[0016]图2是本专利技术提出的跨模态单流Transformer情感引导方法整体结构图。
[0017]图3是基于文本Prompt的情感引导机制消融实验。
[0018]图4是基于面部表情Prompt的情感引导机制消融实验。
具体实施方式
[0019]以下实施将结合附图对本专利技术进一步地说明。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。下面的实施例为本专利技术较佳的实施方式,但本专利技术的实施方式并不受上述实施例的限制,其他的任何未背离本专利技术的精神实质与原理下所做的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本专利技术的保护范围之内。
[0020]1.情感引导机制
[0021]一方面,为了加强文本模态中包含的强情感内容,并强化文本主模态对音频和视觉副模态的引导作用,本专利技术进一步提出基于增强文本embedding的情感引导机制。另一方面,为了加强模型对跨模态关联情感的关注度和学习能力,还通过设计基于提示学习的情感预测辅助任务,并利用不同模态之间的情感信息交集,提出基于提示学习Prompt的跨模
态情感引导机制。由于第二种情感引导方法不仅需要捕捉每个模态单一的时序特征,还需要同时捕捉文本、音频、视觉三个模态的时序关联,因此本实施例针对多流和单流两种经典的跨模态模型,分别设计相关实验,对上述两种情感引导机制进行验证。
[0022]1.1.基于增强文本embedding的情感引导机制
[0023]原始的视频跨模态数据中包含着很多情感内容,比如文本模态的情感词、音频模态的强音调、视觉模态的面部表情等。在基于增强文本embedding的情感引导机制中,本专利技术主要关注文本模态中的情感内容,引入一个预定义好的情感词词典,用于匹配出情感的位置,并增强情感信息对应位置的特征在情感分析中的影响。对于每个视频片段给定的文本输入,首先利用情感词字典,匹配出文本序列中的情感词,然后用一组与文本长度相同的布尔值来记录文本序列中每个词是否表示情感内容,并把情感本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于情感引导的跨模态视频情感分析方法,其特征在于包括以下步骤:a、引入预定义好的情感词字典;b、提取模态浅层特征;c、将模态浅层特征输入带有情感引导机制的跨模态多流Transformer模型或跨模态单流Transformer模型中,得到情感分析结果。2.如权利要求1所述一种基于情感引导的跨模态视频情感分析方法,其特征在于在步骤a中,所述情感词字典用于匹配出情感的位置,增强情感信息对应位置的特征在情感分析中的影响;对于每个视频片段给定的文本输入,首先利用情感词字典,匹配出文本序列中的情感词,然后用一组与文本长度相同的布尔值来记录文本序列中的每个词是否表示情感内容,并把情感部分的布尔值标记为1。3.如权利要求1所述一种基于情感引导的跨模态视频情感分析方法,其特征在于在步...

【专利技术属性】
技术研发人员:王鑫林达真周艺涵曹冬林
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1