System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于语音与视线多模态融合的意图识别方法及系统技术方案_技高网

一种基于语音与视线多模态融合的意图识别方法及系统技术方案

技术编号:43844515 阅读:5 留言:0更新日期:2024-12-31 18:39
本发明专利技术涉及一种基于语音与视线多模态融合的意图识别方法及系统,属于意图识别技术领域。包括:特征提取:从语音和脸部提取文本、语音和视线特征;多模态表示:包括:1)模态共享表示;2)模态特异表示;多模态融合:包括:3)模态内融合;4)跨模态融合;意图识别:将最终的融合特征输入多层感知机,并连接softmax层输出分类结果,进行意图识别。本发明专利技术在每个训练步骤中随机选择训练集中的一个受试者,并应用元学习方法,即基于一阶梯度的算法来更新模型,缓解过拟合问题,使模型能够优化新的参数。本发明专利技术通过应用基于全脸外观和随机身份对抗网络的视线特征提取方法,实现与外观无关的视线估计以及脸部重点特征的提取。

【技术实现步骤摘要】

本专利技术涉及一种基于语音与视线多模态融合的意图识别方法及系统,属于意图识别。


技术介绍

1、在数字营销元宇宙交互环境中,意图识别有助于提高客户交互的效率和质量,可帮助企业深入了解客户需求,提供个性化服务,实现精准营销,增强客户满意度。

2、当前,为准确理解客户意图,多模态融合技术通过综合利用不同模态的信息,可以更加全面、准确地理解用户意图。在数字营销元宇宙环境中,人机交互中的语音可提取客户的文本表达信息和语调情绪信息,而脸部视线信息可以反映用户的注意力和兴趣点。将语音和视线信息融合,能提供更为丰富的意图信息,提升意图识别算法的准确性和鲁棒性。

3、人脸视线包含了丰富的人类意图信息,基于深度学习的视线估计技术受到了极大的关注。该技术可以从高维视频图像中学习高级视线特征,从而显著提高人脸视线估计的准确性。但由于人脸图像中由于灯光、遮挡以及人脸外貌差别等原因,使用有限特定人的数据集进行模型训练时,往往会造成模型的过拟合。因此,将人脸视线估计应用于实际意图识别应用仍然具有挑战。

4、另外,多模态融合技术虽然在一定程度上解决了这些问题,但如何有效地融合不同模态的信息提升客户意图识别的准确性,仍然面临许多挑战。例如,如何处理不同模态数据的异质性、同步性问题,以及如何设计高效的特征融合算法等。

5、存在上述问题的主要原因包括:模态信息的不完整或选择不当;视线估计训练数据有限;模态信息的异质性;信息冗余和噪声;特征融合方式设计不合理;融合时的权重分配问题;模态间的交互不足。

6、模态信息选择不当、视线估计模型过拟合、多模态融合方法不合理等问题都会影响意图识别模型的泛化能力和准确性。要解决这些问题,可以通过精细选择模态信息、元学习、优化正则化技术,并设计合理的特征融合方法来改善模型的性能。


技术实现思路

1、针对现有技术中存在的缺陷和不足,本专利技术提出了一种基于语音和视线共同作用的多模态融合方法用于意图识别,旨在解决以下技术问题:

2、1.模态信息的选择:在人机交互意图识别任务中,选择合适的模态信息是关键。其中,脸部视线信息可以反映用户的注意力和兴趣点,语音可提取客户的文本表达信息和语调情绪信息。视线和语音都是用户意图的关键信息。

3、2.视线估计模型过拟合:在视线估计任务中,过拟合可能表现为模型对特定场景、个体或视线方向的预测非常精确,但当面对不同场景或人物时,模型的预测精度显著下降。

4、3.多模态特征融合方法对意图识别准确度的影响:多模态特征融合指的是从多个模态(如语音、文本、图像、手势等)中提取特征,并将它们有效地结合起来,以提高模型对复杂场景中用户意图的理解能力。选择适当的融合方法可以增强不同模态之间的信息互补性,提高意图识别的精度和鲁棒性。

5、本专利技术的技术方案为:

6、一种基于语音与视线多模态融合的意图识别方法,包括:

7、特征提取:基于预训练的bert模型、wav2vec 2.0模型和自训练fgen模型从语音和脸部提取文本、语音和视线特征;

8、多模态表示:包括:1)模态共享表示:构建模态共享编码器学习跨模态的共享特征;模态共享编码器将文本、语音和视线特征转换到统一的特征空间,获得共享特征,利用中心矩差异最小化不同模态共享特征之间的相似性损失;2)模态特异表示:构建模态特异编码器学习各模态的特定特征;模态特异编码器将文本、语音和视线特征转换到特定特征空间,获得特定特征;通过差分损失确保同一模态的共享特征和特定特征的分布不同,同时不同模态的特定特征分布也不同;

9、多模态融合:包括:3)模态内融合:通过自注意力机制融合每个模态的共享特征和特定特征,获得单模态融合特征;4)跨模态融合:使用交叉注意力机制学习跨模态的相关特征,并通过门控机制融合不同模态的特征,得到最终的融合特征;

10、意图识别:将最终的融合特征输入多层感知机,并连接 softmax 层输出分类结果,进行意图识别。

11、基于预训练的bert模型提取文本特征;包括:

12、采用主动获取的方式捕获交互环境的语音,将所获取的文本都输入到bert模型中,为文本中的词向量,m为词向量总数,bert模型最后一个隐藏层的输出表示文本特征,是文本话语的序列长度,是每个标记的特征维度。

13、基于预训练的wav2vec 2.0模型提取语音特征;包括:

14、采用主动获取的方式捕获交互环境的语音,每个语音段都被输入到wav2vec 2.0模型中;wav2vec 2.0模型的最后一个隐藏层的输出表示语音特征,表示语音段的序列长度,表示每个标记的特征维度。

15、根据本专利技术优选的,基于预训练的fgen模型提取视线特征;包括:

16、使用swcnn作为训练基线模型,通过连接人脸身份分类器(人脸识别模型)来扩展网络架构,实现与外观无关的视线估计,脸部重点特征的提取;采用元学习策略训练fgen模型;即:每次迭代训练都从人脸视线数据集中随机选择受试者组成元训练数据集和元测试数据集,得到视线特征嵌入性是关键帧的序列长度,是每个帧的特征维度;表示一个的实数矩阵,包括所有关键帧的特征嵌入,每一行对应一个关键帧的特征,每一列对应某一特定特征维度的值;如下所示:

17、;

18、其中,表示人脸身份分类器,表示视线预测模型,ml表示元学习策略。

19、根据本专利技术优选的,采用元学习策略训练fgen模型,fgen模型训练利用对抗策略实现视线特征与外观主体的无关性;包括:

20、人脸识别参数更新;

21、利用视线损失和对抗损失更新fgen模型的参数。

22、视线预测模型将人脸图像转换为注视方向向量;如下所示:

23、;

24、其中,表示视线偏航和俯仰向量标签,表示fgen模型输出的人脸视线特征向量,表示人脸视线预测模型,表示人脸数据集;

25、

26、表示人脸身份分类器,表示训练受试者中每类人脸的识别概率向量;

27、人脸身份分类器的参数根据识别概率和标签的交叉熵损失函数进行更新,交叉熵损失函数如下所示:

28、;

29、其中,为每个受试者人脸的识别标签,为第n个受试者人脸的预测识别概率,n为训练数据总数;表示对数函数;

30、接下来,fgen模型继续进行对抗性训练;人脸视线预测模型向与人脸身份分类器相反的目标进行优化;由此,将外观泛化的对抗性损失定义如下:

31、;

32、;

33、其中,表示受试者人脸预测概率的准确度,表示外观泛化的对抗性损失;,是一个均匀分布,k是训练集中的受试者数量;表示取范数;利用余弦相似度构造一个损失函数,使预测的恒等概率采用均匀分布;

34、注视方向损失使用l1损失,定义为:

35、;

36、其中,表本文档来自技高网...

【技术保护点】

1.一种基于语音与视线多模态融合的意图识别方法,其特征在于,包括:

2.根据权利要求1所述的一种基于语音与视线多模态融合的意图识别方法,其特征在于,基于预训练的FGEN模型提取视线特征;包括:

3.根据权利要求1所述的一种基于语音与视线多模态融合的意图识别方法,其特征在于,采用元学习策略训练FGEN模型,FGEN模型训练利用对抗策略实现视线特征与外观主体的无关性;包括:

4.根据权利要求3所述的一种基于语音与视线多模态融合的意图识别方法,其特征在于,在每个训练步骤中随机选择训练集中的一个受试者,并应用元学习方法,即基于一阶梯度的算法来更新模型;包括:

5.根据权利要求1所述的一种基于语音与视线多模态融合的意图识别方法,其特征在于,模态共享表示:包括:

6.根据权利要求1所述的一种基于语音与视线多模态融合的意图识别方法,其特征在于,模态特异表示:包括:构建模态特异编码器,包括:,,和,分别对应文本、语音和视线;模态特异编码器将、和转换为唯一特征空间,以获得特定特征 ,和:

7.根据权利要求1所述的一种基于语音与视线多模态融合的意图识别方法,其特征在于,多模态融合操作之前,构建一个解码器来输入共享特征和特定特征,其中,表示共享特征,表示特定特征,表示解码器参数;重建原始特征空间:

8.根据权利要求1所述的一种基于语音与视线多模态融合的意图识别方法,其特征在于,模态内融合;包括:

9.根据权利要求1-8任一所述的一种基于语音与视线多模态融合的意图识别方法,其特征在于,模态内融合;共同优化损失的、, 和交叉熵损失;最终的优化目标L如下所示:

10.一种基于语音与视线多模态融合的意图识别系统,其特征在于,包括:

...

【技术特征摘要】

1.一种基于语音与视线多模态融合的意图识别方法,其特征在于,包括:

2.根据权利要求1所述的一种基于语音与视线多模态融合的意图识别方法,其特征在于,基于预训练的fgen模型提取视线特征;包括:

3.根据权利要求1所述的一种基于语音与视线多模态融合的意图识别方法,其特征在于,采用元学习策略训练fgen模型,fgen模型训练利用对抗策略实现视线特征与外观主体的无关性;包括:

4.根据权利要求3所述的一种基于语音与视线多模态融合的意图识别方法,其特征在于,在每个训练步骤中随机选择训练集中的一个受试者,并应用元学习方法,即基于一阶梯度的算法来更新模型;包括:

5.根据权利要求1所述的一种基于语音与视线多模态融合的意图识别方法,其特征在于,模态共享表示:包括:

6.根据权利要求1所述的一种基于语音与视线多模...

【专利技术属性】
技术研发人员:孟巍吴雪霞宗振国郭腾炫孔鹏朱伟义
申请(专利权)人:国网山东省电力公司营销服务中心计量中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1