System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种结合会话历史的多模态情感分析方法及系统技术方案_技高网

一种结合会话历史的多模态情感分析方法及系统技术方案

技术编号:44055450 阅读:8 留言:0更新日期:2025-01-17 15:58
本发明专利技术提供一种结合会话历史的多模态情感分析方法及系统,方法包括:输入多模态数据;对各模态的数据进行预处理;对预处理后的各模态数据进行特征提取;将提取的各模态数据特征进行特征融合;经过门控机制,融合长短期历史会话特征和当前发话特征,得到最终的情感表示特征向量;使用全连接神经网络对情感表示特征向量进行分类,输出各个情感分类的原始得分,加入全连接层作为情感分类器,输出情感分类结果,归一化分数。本发明专利技术综合考虑用户的会话历史与当前输入,提高情感分析的准确性和个性化程度;使用门控分数控制会话信息对情感分类的影响,提升语音助手情感分析的准确率;采用异步更新记忆,保证响应速度基本不变,提供更优质的用户体验。

【技术实现步骤摘要】

本专利技术涉及语音助手情感分析;具体而言,涉及一种结合会话历史的多模态情感分析方法及系统


技术介绍

1、当前,语音助手的情感分析方案主要使用单一或多个模态信息进行情感识别,例如语音、文本和图像结合的多模态语音情感分析方法。

2、然而,现有的这些情感分析方案通常未能充分考虑用户的历史会话信息,包括短期的当前会话上下文和长期的用户对话历史。

3、现阶段情感分析未结合用户长短期会话历史的这种局限性,使得情感分析结果的准确性和个性化水平受到很大限制,情感分析效果低。


技术实现思路

1、鉴于此,本专利技术的目的在于开发一种结合会话历史的多模态情感分析方法及系统,将历史会话信息与单/多模态情感分析相结合,通过综合考虑用户的会话历史与当前输入,提高情感分析的准确性和个性化程度,提升情感分析效果;并且在工程化实现上,采用异步更新记忆的方式,保证在实现更高精度的同时,维护响应速度的一致性,提供更优质的用户体验。

2、本专利技术提供一种结合会话历史的多模态情感分析方法,包括:

3、s1、输入多模态数据,所述多模态数据包括:用户发话的音频(audio)、语音识别文本(text)、用户面部图像(image)、图像信号(如场景内人数,图像情感类别,每个信号为一个数值,连接成为signalimage)、视频信号、环境信号(场景内环境状态信息)、个性化信息(使用习惯、个人信息、文化背景、用户偏好)、规则信号(如是否和上轮发话重复,是否含辱骂词,每个特征为一个数值,连接成为signalrule),当前会话上文编码(短期记忆,memoryshort),历史会话编码(长期记忆,memorylong);

4、s2、根据所使用的多模态数据,对各模态的数据进行预处理,包括:

5、对声音audio预处理,供音频编码器使用;

6、对图像image预处理,得到imagepreprocessed,供后续图像编码器使用;

7、s3、基于cnn/rnn模型的编码器encoder,或transformer模型的编码器encoder,对预处理后的各模态数据进行特征提取;

8、s4、将提取的各模态数据特征进行特征融合;

9、s5、经过门控机制,融合长短期历史会话特征和当前发话特征,得到最终的情感表示特征向量sentimentrepr:

10、sentimentrepr=

11、gatescoreshort(memoryshort)*memoryshort

12、+gatescorelong(memorylong)*memorylong

13、+queryrepr

14、其中,门控分数gatescore=sigmoid(gateprojection(memory)),gateprojection是模型训练得来的模型参数矩阵;memory是记忆编码,是一个n维的向量;gateproject是一个(n,1)的矩阵,simoid是归一化函数;该门控分数gatescore的计算式根据记忆编码和门控分数矩阵计算得到记忆权重,gatescore的分数为0~1;

15、s6、使用全连接神经网络对所述情感表示特征向量进行分类,输出各个情感分类的原始得分logits,加入全连接层作为情感分类器,输出情感分类结果sentimentlogits:

16、sentimentlogits=mlp(sentimentrepr)

17、mlp全称为多层感知器(multilayer perceptron),是一种人工神经网络结构,广泛应用于机器学习和深度学习领域。mlp是前馈神经网络的一种,主要由输入层、一个或多个隐藏层和输出层组成;

18、将各个标签label的logits归一化分数sentimentlabel:

19、sentimentlabel=argmax(softmax(sentimentlogits));

20、argmax表示选出各个标签中分数最大的一个标签作为最终的情感分类结果;logits是指在分类任务中,神经网络输出的、未经过激活函数处理的原始得分,后接softmax转为归一化的类别概率。

21、进一步地,所述s3步骤的对预处理后的各模态数据进行特征提取的方法包括:

22、使用基于transformer类的模型(如bert、roberta等)提取文本特征,获取文本特征向量表示textrepr:

23、textrepr=transformer(tokenizer(text));

24、transformer类模型是一种用于处理序列数据的先进神经网络架构,特别适用于自然语言处理(nlp)任务。与传统的循环神经网络(rnn)和长短期记忆网络(lstm)不同,transformer完全基于注意力机制(attention mechanism),从而大大提高了并行计算的效率;

25、使用cnn/rnn模型处理预处理阶段提取的音频特征,获取音频特征向量表示audiorepr:

26、audiorepr=cnn(audiofeatures);

27、cnn(卷积神经网络,convolutional neural network)是一种特殊的人工神经网络,特别擅长处理具有网格结构的数据,如图像和视频;cnn在计算机视觉领域取得了重大进展,被广泛应用于图像分类、目标检测、语义分割等任务;

28、rnn(循环神经网络,recurrentneural network)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network);循环神经网络具有记忆性、参数共享并且图灵完备(turing completeness),因此在对序列的非线性特征进行学习时具有一定优势。rnn在自然语言处理(natural language processing,nlp),例如语音识别、语言建模、机器翻译等领域有应用,也被用于各类时间序列预报。引入了卷积神经网络(convolutionalneuralnetwork,cnn)构筑的循环神经网络可以处理包含序列输入的计算机视觉问题。

29、使用预训练的卷积神经网络(如vgg、resnet)提取图像特征向量表示imagerepr:

30、imagerepr=resnet(imagepreprocessed);

31、resnet全称为残差网络(residual network),是一种深度神经网络结构,该网络在机器学习和计算机视觉领域,特别是在图像识别任务中取得了显著的成绩。

32、进一步地,所述s2步骤的对图像image预处理的方法包括:

33、缩放(rescalin本文档来自技高网...

【技术保护点】

1.一种结合会话历史的多模态情感分析方法,其特征在于,包括:

2.根据权利要求1所述的结合会话历史的多模态情感分析方法,其特征在于,所述S3步骤的对预处理后的各模态数据进行特征提取的方法包括:

3.根据权利要求1所述的结合会话历史的多模态情感分析方法,其特征在于,所述S2步骤的对图像Image预处理的方法包括:

4.根据权利要求1所述的结合会话历史的多模态情感分析方法,其特征在于,所述S2步骤的对声音Audio预处理的方法包括:

5.根据权利要求1所述的结合会话历史的多模态情感分析方法,其特征在于,所述S4步骤的将提取的各模态数据特征进行特征融合的方法包括:

6.根据权利要求1所述的结合会话历史的多模态情感分析方法,其特征在于,所述S6步骤之后还包括:

7.一种结合会话历史的多模态情感分析系统,执行如权利要求1-6任一项所述的结合会话历史的多模态情感分析方法,其特征在于,包括:

8.根据权利要求7所述的结合会话历史的多模态情感分析系统,其特征在于,所述多模态数据特征提取模块包括:

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1-6任一项所述的结合会话历史的多模态情感分析方法的步骤。

10.一种计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任一项所述的结合会话历史的多模态情感分析方法的步骤。

...

【技术特征摘要】

1.一种结合会话历史的多模态情感分析方法,其特征在于,包括:

2.根据权利要求1所述的结合会话历史的多模态情感分析方法,其特征在于,所述s3步骤的对预处理后的各模态数据进行特征提取的方法包括:

3.根据权利要求1所述的结合会话历史的多模态情感分析方法,其特征在于,所述s2步骤的对图像image预处理的方法包括:

4.根据权利要求1所述的结合会话历史的多模态情感分析方法,其特征在于,所述s2步骤的对声音audio预处理的方法包括:

5.根据权利要求1所述的结合会话历史的多模态情感分析方法,其特征在于,所述s4步骤的将提取的各模态数据特征进行特征融合的方法包括:

6.根据权利要求1所述的结合会话历史的多模态情感分析方法,...

【专利技术属性】
技术研发人员:杨喆李全忠何国涛蒲瑶
申请(专利权)人:普强时代珠海横琴信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1