语音情感识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37794667 阅读:9 留言:0更新日期:2023-06-09 09:24
本公开提供一种语音情感识别方法、装置、电子设备及存储介质,所述方法包括:获取待识别的音频数据以及所述音频数据对应的文本数据;获取所述音频数据中每个音频帧对应的音频特征,以及所述文本数据中每个字对应的文本特征;根据所述音频数据和所述文本数据,确定所述音频数据对应的对齐矩阵;基于所述对齐矩阵、所述每个音频帧对应的音频特征,确定所述音频数据对应的音频表征矩阵;根据所述音频表征矩阵、所述文本特征构成的文本表征矩阵,确定所述音频数据对应的多模态表征向量;基于所述多模态表征向量进行情感识别,得到情感识别结果。本方案实现了音频模态和文本模态的交互融合,从而能够提高语音情感识别的准确度。从而能够提高语音情感识别的准确度。从而能够提高语音情感识别的准确度。

【技术实现步骤摘要】
语音情感识别方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能
,尤其涉及一种语音情感识别方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能技术的发展,情感识别在各领域中得到了广泛的应用。目前,相关技术中,在进行情感识别时,通常采用的识别方法是,对音频进行语音识别得到对应的转录文本,根据转录文本的文本特征识别出音频中的情感信息。
[0003]可见,现有的情感识别方式仅考虑了文本内容这一模态的信息,存在情感识别结果的准确性不高的问题。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种语音情感识别方法、装置、电子设备及存储介质。
[0005]根据本公开的一方面,提供了一种语音情感识别方法,包括:
[0006]获取待识别的音频数据以及所述音频数据对应的文本数据;
[0007]获取所述音频数据中每个音频帧对应的音频特征,以及所述文本数据中每个字对应的文本特征;
[0008]根据所述音频数据和所述文本数据,确定所述音频数据对应的对齐矩阵,其中,所述对齐矩阵中第i行j列的元素值为1表示第i个音频帧属于第j个字,i的取值为1~n,j的取值为1~m,n表示所述音频帧的总数,m表示所述音频数据中包含的字的总数;
[0009]基于所述对齐矩阵、所述每个音频帧对应的音频特征,确定所述音频数据对应的音频表征矩阵;
[0010]根据所述音频表征矩阵、所述文本特征构成的文本表征矩阵,确定所述音频数据对应的多模态表征向量;
[0011]基于所述多模态表征向量进行情感识别,得到情感识别结果。
[0012]根据本公开的另一方面,提供了一种语音情感识别装置,包括:
[0013]第一获取模块,用于获取待识别的音频数据以及所述音频数据对应的文本数据;
[0014]第二获取模块,用于获取所述音频数据中每个音频帧对应的音频特征,以及所述文本数据中每个字对应的文本特征;
[0015]第一确定模块,用于根据所述音频数据和所述文本数据,确定所述音频数据对应的对齐矩阵,其中,所述对齐矩阵中第i行j列的元素值为1表示第i个音频帧属于第j个字,i的取值为1~n,j的取值为1~m,n表示所述音频帧的总数,m表示所述音频数据中包含的字的总数;
[0016]第二确定模块,用于基于所述对齐矩阵、所述每个音频帧对应的音频特征,确定所述音频数据对应的音频表征矩阵;
[0017]第三确定模块,用于根据所述音频表征矩阵、所述文本特征构成的文本表征矩阵,确定所述音频数据对应的多模态表征向量;
[0018]识别模块,用于基于所述多模态表征向量进行情感识别,得到情感识别结果。
[0019]根据本公开的另一方面,提供了一种电子设备,包括:
[0020]处理器;以及
[0021]存储程序的存储器,
[0022]其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据前述一方面所述的语音情感识别方法。
[0023]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据前述一方面所述的语音情感识别方法。
[0024]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现前述一方面所述的语音情感识别方法。
[0025]本公开实施例中提供的一个或多个技术方案,通过获取待识别的音频数据以及音频数据对应的文本数据,并获取音频数据中每个音频帧对应的音频特征,以及文本数据中每个字对应的文本特征,以及根据音频数据和文本数据,确定音频数据对应的对齐矩阵,接着基于对齐矩阵、每个音频帧对应的音频特征,确定音频数据对应的音频表征矩阵,并根据音频表征矩阵、文本特征构成的文本表征矩阵,确定音频数据对应的多模态表征向量,进而基于多模态表征向量进行情感识别,得到情感识别结果。采用本公开的方案,通过利用对齐矩阵来提取每个字对应的音频特征,实现了以字为单位的细粒度特征识别,并将音频表征与文本表征进行融合来确定音频数据对应的多模态表征向量用于情感识别,实现了音频模态和文本模态的交互融合,从而能够提高语音情感识别的准确度。
附图说明
[0026]在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
[0027]图1示出了根据本公开一示例性实施例的语音情感识别方法的流程图;
[0028]图2示出了根据本公开另一示例性实施例的语音情感识别方法的流程图;
[0029]图3示出了根据本公开又一示例性实施例的语音情感识别方法的流程图;
[0030]图4示出了根据本公开一示例性实施例的语音情感识别模型的网络结构示意图;
[0031]图5示出了根据本公开示例性实施例的语音情感识别装置的示意性框图;
[0032]图6示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
[0033]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0034]应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,
和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
[0035]本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0036]需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0037]本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0038]以下参照附图描述本公开提供的语音情感识别方法、装置、电子设备及存储介质。
[0039]目前,相关技术中,在进行情感识别时,通常先对音频进行语音识别得到转录文本,再根据转录文本的文本特征进行情感识别,得到音频中包含的情感信息。
[0040]然而,情感是多模态的,声音和语言内容都可以表达情感,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音情感识别方法,其中,所述方法包括:获取待识别的音频数据以及所述音频数据对应的文本数据;获取所述音频数据中每个音频帧对应的音频特征,以及所述文本数据中每个字对应的文本特征;根据所述音频数据和所述文本数据,确定所述音频数据对应的对齐矩阵,其中,所述对齐矩阵中第i行j列的元素值为1表示第i个音频帧属于第j个字,i的取值为1~n,j的取值为1~m,n表示所述音频帧的总数,m表示所述音频数据中包含的字的总数;基于所述对齐矩阵、所述每个音频帧对应的音频特征,确定所述音频数据对应的音频表征矩阵;根据所述音频表征矩阵、所述文本特征构成的文本表征矩阵,确定所述音频数据对应的多模态表征向量;基于所述多模态表征向量进行情感识别,得到情感识别结果。2.如权利要求1所述的语音情感识别方法,其中,所述基于所述对齐矩阵、所述每个音频帧对应的音频特征,确定所述音频数据对应的音频表征矩阵,包括:遍历所述音频数据中的每一个字;基于所述对齐矩阵,确定属于当前遍历到的字的目标音频帧;根据所述目标音频帧对应的目标音频特征,确定所述当前遍历到的字对应的融合音频特征;响应于遍历结束,根据所述每一个字分别对应的融合音频特征,生成所述音频数据对应的音频表征矩阵。3.如权利要求2所述的语音情感识别方法,其中,所述根据所述目标音频帧对应的目标音频特征,确定所述当前遍历到的字对应的融合音频特征,包括:在所述目标音频帧的个数为一个的情况下,将所述目标音频帧对应的目标音频特征确定为所述当前遍历到的字对应的融合音频特征;在所述目标音频帧的个数为多个的情况下,根据多个所述目标音频帧分别对应的目标音频特征,确定多个所述目标音频特征的平均音频特征以及最大音频特征;对所述平均音频特征和所述最大音频特征进行拼接,得到所述当前遍历到的字对应的融合音频特征。4.如权利要求1所述的语音情感识别方法,其中,所述根据所述音频表征矩阵、所述文本特征构成的文本表征矩阵,确定所述音频数据对应的多模态表征向量,包括:获取所述音频表征矩阵对应的音频权重矩阵,以及所述文本特征构成的文本表征矩阵对应的文本权重矩阵;基于所述音频权重矩阵和所述音频表征矩阵,确定所述音频数据对应的加权音频表征矩阵;基于所述文本权重矩阵和所述文本表征矩阵,确定所述音频数据对应的加权文本表征矩阵;根据所述加权音频表征矩阵和所述加权文本表征矩阵,确定所述音频数据对应的多模态表征向量。5.如权利要求4所述的语音情感识别方法,其中,所述获取所述音频表征矩阵对应的音
频权重矩阵,以及所述文本特征构成的文本表征矩阵...

【专利技术属性】
技术研发人员:刘子韬陈佳豪罗伟其
申请(专利权)人:北京乐柏信息咨询有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1