情感识别方法、装置、设备和存储介质制造方法及图纸

技术编号:37381391 阅读:11 留言:0更新日期:2023-04-27 07:22
本申请公开了一种情感识别方法、装置、设备和存储介质,属于计算机技术领域。包括:获取目标对象的语音数据;对语音数据进行处理,得到语音数据对应的语谱图和文本;对语音数据进行特征提取,得到语音数据的语音特征;对语谱图进行特征提取,得到语谱图的图像特征;对文本进行特征提取得到文本的文本特征;基于语音特征、图像特征以及文本特征,确定目标对象的情感。本申请通过对目标对象的语音数据进行处理得到图像、语音、文本三种模态的特征,之后综合这三种模态的特征对目标对象的情感进行识别,可以提高对目标对象的情感识别的准确率。可以提高对目标对象的情感识别的准确率。可以提高对目标对象的情感识别的准确率。

【技术实现步骤摘要】
情感识别方法、装置、设备和存储介质


[0001]本申请涉及计算机
,特别涉及一种情感识别方法、装置、设备和存储介质。

技术介绍

[0002]如今,人工智能技术飞速发展,人工智能产品也层出不穷。在一些情况下,人工智能产品可以替代人工做一些操作,比如:与人类进行交互(例如:对话)等。为了提升用户对人工智能产品的体验,可以增加一些情感(喜、怒、哀、乐等)识别等功能,以使人工智能产品能够根据人类的情感做出相应的回应。
[0003]相关技术中,获取用户的语音数据,将用户的语音数据进行文字转换,得到对应的文本数据,之后可以对文本数据进行分析来实现对用户的情感的识别。
[0004]然而,由于一些复杂或特殊的场景下情感识别的难度较大,这种情况下上述情感识别方式难以准确识别用户的情感,所以抗干扰性和鲁棒性较差,如此会降低对用户情感识别的准确率。

技术实现思路

[0005]本申请提供了一种情感识别方法、装置、设备和存储介质,可以在仅获取用户的语音数据的情况下提高情感识别的准确率,从而提升用户体验。所述技术方案如下:
[0006]第一方面,提供了一种情感识别方法,所述方法包括:
[0007]获取目标对象的语音数据;
[0008]对所述语音数据进行处理,得到所述语音数据对应的语谱图和文本;
[0009]对所述语音数据进行特征提取,得到所述语音数据的语音特征;对所述语谱图进行特征提取,得到所述语谱图的图像特征;对所述文本进行特征提取得到所述文本的文本特征;
[0010]基于所述语音特征、所述图像特征以及所述文本特征,确定所述目标对象的情感。
[0011]在本申请中,获取目标对象的语音数据,对语音数据进行处理,得到语音数据对应的语谱图和文本,之后通过对语音数据、语谱图和文本进行特征提取,得到语音数据的语音特征、图像特征和文本特征。如此仅通过对目标对象的语音数据进行处理即可得到图像、语音、文本三种模态的特征,这三种模态的特征可以更加全面的表征目标对象的情感特征。之后基于语音特征、图像特征以及文本特征,确定目标对象的情感,如此综合这三种模态的特征确定目标对象的情感,可以提高对目标对象的情感识别的准确率。
[0012]可选地,所述对所述语音数据进行处理,得到所述语音数据对应的语谱图和文本,包括:
[0013]将所述语音数据分为多个语音片段;
[0014]对所述多个语音片段进行时频变换,得到所述语音数据对应的语谱图;
[0015]对所述多个语音片段进行文本识别,得到所述语音数据对应的文本。
[0016]可选地,所述对所述多个语音片段进行时频变换,得到所述语音数据对应的语谱图,包括:
[0017]对于所述多个语音片段中任意的一个语音片段,对所述语音片段进行傅里叶变换或小波变换,得到目标频谱;基于所述目标频谱,生成所述语音片段对应的语谱图;
[0018]将所述多个语音片段的语谱图进行拼接,得到所述语音数据对应的语谱图。
[0019]可选地,所述对所述语音数据进行特征提取,得到所述语音数据的语音特征,包括:
[0020]将所述语音数据分为多个语音片段;
[0021]对于所述多个语音片段中任意的一个语音片段,对所述语音片段的频谱进行滤波,得到滤波信息;基于所述滤波信息,确定所述语音片段的语音片段特征;
[0022]将所述多个语音片段的语音片段特征进行拼接,得到所述语音数据的语音特征。
[0023]可选地,所述基于所述语音特征、所述图像特征以及所述文本特征,确定所述目标对象的情感,包括:
[0024]对所述语音特征、所述图像特征以及所述文本特征进行特征拼接,得到所述语音数据的多模态特征;
[0025]基于所述语音数据的多模态特征,确定所述目标对象的情感。
[0026]可选地,所述基于所述语音数据的多模态特征,确定所述目标对象的情感,包括:
[0027]基于注意力机制对所述语音数据的多模态特征进行编码,得到所述语音数据的注意力特征;
[0028]基于所述语音数据的注意力特征,确定所述目标对象的情感。
[0029]可选地,所述基于所述语音数据的注意力特征,确定所述目标对象的情感,包括:
[0030]对所述语音数据的注意力特征进行序列编码,得到所述语音数据的序列编码特征;对所述序列编码特征进行归一化,得到所述目标对象对应于多个候选情感的概率;将所述多个候选情感中概率最高的候选情感确定为所述目标对象的情感。
[0031]第二方面,提供了一种情感识别装置,所述装置包括:
[0032]获取模块,用于获取目标对象的语音数据;
[0033]处理模块,用于对所述语音数据进行处理,得到所述语音数据对应的语谱图和文本;
[0034]特征提取模块,用于对所述语音数据进行特征提取,得到所述语音数据的语音特征;对所述语谱图进行特征提取,得到所述语谱图的图像特征;对所述文本进行特征提取得到所述文本的文本特征;
[0035]确定模块,用于基于所述语音特征、所述图像特征以及所述文本特征,确定所述目标对象的情感。
[0036]可选地,所述处理模块用于:
[0037]将所述语音数据分为多个语音片段;
[0038]对所述多个语音片段进行时频变换,得到所述语音数据对应的语谱图;
[0039]对所述多个语音片段进行文本识别,得到所述语音数据对应的文本。
[0040]可选地,所述处理模块用于:
[0041]对于所述多个语音片段中任意的一个语音片段,对所述语音片段进行傅里叶变换
或小波变换,得到目标频谱;基于所述目标频谱,生成所述语音片段对应的语谱图;
[0042]将所述多个语音片段的语谱图进行拼接,得到所述语音数据对应的语谱图。
[0043]可选地,所述特征提取模块用于:
[0044]将所述语音数据分为多个语音片段;
[0045]对于所述多个语音片段中任意的一个语音片段,对所述语音片段的频谱进行滤波,得到滤波信息;基于所述滤波信息,确定所述语音片段的语音片段特征;
[0046]将所述多个语音片段的语音片段特征进行拼接,得到所述语音数据的语音特征。
[0047]可选地,所述确定模块包括:
[0048]特征拼接单元,用于对所述语音特征、所述图像特征以及所述文本特征进行特征拼接,得到所述语音数据的多模态特征;
[0049]确定单元,用于基于所述语音数据的多模态特征,确定所述目标对象的情感。
[0050]可选地,所述确定单元用于:
[0051]基于注意力机制对所述语音数据的多模态特征进行编码,得到所述语音数据的注意力特征;
[0052]基于所述语音数据的注意力特征,确定所述目标对象的情感。
[0053]可选地,所述确定单元用于:
[0054]对所述语音数据的注意力特征进行序列编码,得到所述语音数据的序列编码特征;对所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种情感识别方法,其特征在于,所述方法包括:获取目标对象的语音数据;对所述语音数据进行处理,得到所述语音数据对应的语谱图和文本;对所述语音数据进行特征提取,得到所述语音数据的语音特征;对所述语谱图进行特征提取,得到所述语谱图的图像特征;对所述文本进行特征提取得到所述文本的文本特征;基于所述语音特征、所述图像特征以及所述文本特征,确定所述目标对象的情感。2.如权利要求1所述的方法,其特征在于,所述对所述语音数据进行处理,得到所述语音数据对应的语谱图和文本,包括:将所述语音数据分为多个语音片段;对所述多个语音片段进行时频变换,得到所述语音数据对应的语谱图;对所述多个语音片段进行文本识别,得到所述语音数据对应的文本。3.如权利要求2所述的方法,其特征在于,所述对所述多个语音片段进行时频变换,得到所述语音数据对应的语谱图,包括:对于所述多个语音片段中任意的一个语音片段,对所述语音片段进行傅里叶变换或小波变换,得到目标频谱;基于所述目标频谱,生成所述语音片段对应的语谱图;将所述多个语音片段的语谱图进行拼接,得到所述语音数据对应的语谱图。4.如权利要求1所述的方法,其特征在于,所述对所述语音数据进行特征提取,得到所述语音数据的语音特征,包括:将所述语音数据分为多个语音片段;对于所述多个语音片段中任意的一个语音片段,对所述语音片段的频谱进行滤波,得到滤波信息;基于所述滤波信息,确定所述语音片段的语音片段特征;将所述多个语音片段的语音片段特征进行拼接,得到所述语音数据的语音特征。5.如权利要求1至4任一所述的方法,其特征在于,所述基于所述语音特征、所述图像特征以及所述文本特征,确定所述目标对象的情感,包括:对所述语音特征、所述图像特征...

【专利技术属性】
技术研发人员:张云斌
申请(专利权)人:长城汽车股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1