一种基于序列卷积的语音情感识别方法及装置制造方法及图纸

技术编号:27659111 阅读:20 留言:0更新日期:2021-03-12 14:25
本发明专利技术公开了一种基于序列卷积的语音情感识别方法及装置,该方法包括获取待识别的语音信息,对语音信息进行提取得到所述语音信息的描述子向量,将描述子向量输入到序列卷积模型,得到语音信息的序列,对语音信息的序列进行处理,得到语音信息的序列特征以及局部特征,根据语音信息的序列特征和局部特征识别所述语音信息的情感。通过并列地使用局部特征和序列特征的方式来进行语音情感特征的识别,区别于传统上单独地使用局部特征或在局部特征的基础上获得时序特征来进行情感的识别方式,可以提高识别准确率。同时使用序列卷积的步长的设置来实现语音情感识别中的跳帧,来减少信息的冗余性。

【技术实现步骤摘要】
一种基于序列卷积的语音情感识别方法及装置
本专利技术涉及语音识别
,尤其涉及一种基于序列卷积的语音情感识别方法及装置。
技术介绍
语音情感识别的一个方案是采用卷积的方式提取局部特征,然后在时间维度上对得到的局部特征进行最大池化,最大池化后得到的特征便是神经网络所使用的语音序列的特征,最后利用该特征进行情感识别。这种方式得到的特征不具有时序特征。语音情感识别的另一方式就是将语音序列输入循环神经网络(一般使用LSTM等),然后使用循环神经网络的输出得到该语音序列的特征。循环神经网络多使用长短时间记忆网络(LSTM),该网络计算复杂,且对历史信息的掌握具有不可控性,当语音序列较长时,该网络可能丢失一些历史的记忆,进而影响对情感的识别。
技术实现思路
本专利技术实施例提供一种基于序列卷积的语音情感识别方法及装置,用以使得输出的语音序列的特征具有时序性,且提高语音情感识别的准确率。第一方面,本专利技术实施例提供一种基于序列卷积的语音情感识别方法,包括:获取待识别的语音信息;对所述语音信息进行提取得到所述语音信息的描述子向量;将所述描述子向量输入到序列卷积模型,得到所述语音信息的序列;对所述语音信息的序列进行处理,得到所述语音信息的序列特征以及局部特征;根据所述语音信息的序列特征和局部特征识别所述语音信息的情感。上述技术方案中,通过并列地使用局部特征和序列特征的方式来进行语音情感特征的识别,区别于传统上单独地使用局部特征或在局部特征的基础上获得时序特征来进行情感的识别方式,可以提高识别准确率。同时使用序列卷积的步长的设置来实现语音情感识别中的跳帧,来减少信息的冗余性。可选的,所述对所述语音信息进行提取得到所述语音信息的描述子向量,包括:以预设时长的滑窗在所述语音信息上沿时间轴滑动,把所述语音信息切分为具有重叠部分的音频段,得到所述语音信息的描述子向量。可选的,所述对所述语音信息的序列进行处理,得到所述语音信息的序列特征以及局部特征,包括:将所述语音信息的序列进行矩阵分割,得到多个子序列;将所述多个子序列分别提取特征并进行特征合并,得到所述语音信息的序列特征;将所述多个子序列分别输入到第一激活函数后进行池化处理,得到所述语音信息的局部特征。可选的,所述根据所述语音信息的序列特征和局部特征识别所述语音信息的情感,包括:将所述语音信息的序列特征和局部特征进行联合后得到联合特征;将所述联合特征输入到第二激活函数中,得到所述语音信息的情感概率;根据所述语音信息的情感概率,将最大情感概率对应的情感确定为所述语音信息的情感。可选的,所述将所述语音信息的序列特征和局部特征进行联合后得到联合特征,包括:将所述语音信息的序列特征和局部特征进行链接,并对链接结果进行随机丢弃操作后,输入到全连接层得到所述联合特征。第二方面,本专利技术实施例提供一种基于序列卷积的语音情感识别装置,包括:获取单元,用于获取待识别的语音信息;处理单元,用于对所述语音信息进行提取得到所述语音信息的描述子向量;将所述描述子向量输入到序列卷积模型,得到所述语音信息的序列;对所述语音信息的序列进行处理,得到所述语音信息的序列特征以及局部特征;根据所述语音信息的序列特征和局部特征识别所述语音信息的情感。可选的,所述处理单元具体用于:以预设时长的滑窗在所述语音信息上沿时间轴滑动,把所述语音信息切分为具有重叠部分的音频段,得到所述语音信息的描述子向量。可选的,所述处理单元具体用于:将所述语音信息的序列进行矩阵分割,得到多个子序列;将所述多个子序列分别提取特征并进行特征合并,得到所述语音信息的序列特征;将所述多个子序列分别输入到第一激活函数后进行池化处理,得到所述语音信息的局部特征。可选的,所述处理单元具体用于:将所述语音信息的序列特征和局部特征进行联合后得到联合特征;将所述联合特征输入到第二激活函数中,得到所述语音信息的情感概率;根据所述语音信息的情感概率,将最大情感概率对应的情感确定为所述语音信息的情感。可选的,所述处理单元具体用于:将所述语音信息的序列特征和局部特征进行链接,并对链接结果进行随机丢弃操作后,输入到全连接层得到所述联合特征。第三方面,本专利技术实施例还提供一种计算设备,包括:存储器,用于存储程序指令;处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述基于序列卷积的语音情感识别方法。第四方面,本专利技术实施例还提供一种计算机可读非易失性存储介质,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行上述基于序列卷积的语音情感识别方法。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种系统架构的示意图;图2为本专利技术实施例提供的一种基于序列卷积的语音情感识别方法的流程示意图;图3为本专利技术实施例提供的一种基于序列卷积的语音情感识别装置的结构示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。图1为本专利技术实施例提供的一种系统架构。如图1所示,该系统架构可以为服务器100,该服务器100可以包括处理器110、通信接口120和存储器130。其中,通信接口120用于与终端设备进行通信,收发该终端设备传输的信息,实现通信。处理器110是服务器100的控制中心,利用各种接口和线路连接整个服务器100的各个部分,通过运行或执行存储在存储器130内的软件程序/或模块,以及调用存储在存储器130内的数据,执行服务器100的各种功能和处理数据。可选地,处理器110可以包括一个或多个处理单元。存储器130可用于存储软件程序以及模块,处理器110通过运行存储在存储器130的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器130可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据业务处理所创建的数据等。此外,存储器130可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。需要说明的是,上述图1所示的结构仅是一种示例,本专利技术实施例对此不做限定。基于上述描述,图2详细的示出了本专利技术实施例提供的一种基于序本文档来自技高网...

【技术保护点】
1.一种基于序列卷积的语音情感识别方法,其特征在于,包括:/n获取待识别的语音信息;/n对所述语音信息进行提取得到所述语音信息的描述子向量;将所述描述子向量输入到序列卷积模型,得到所述语音信息的序列;/n对所述语音信息的序列进行处理,得到所述语音信息的序列特征以及局部特征;/n根据所述语音信息的序列特征和局部特征识别所述语音信息的情感。/n

【技术特征摘要】
1.一种基于序列卷积的语音情感识别方法,其特征在于,包括:
获取待识别的语音信息;
对所述语音信息进行提取得到所述语音信息的描述子向量;将所述描述子向量输入到序列卷积模型,得到所述语音信息的序列;
对所述语音信息的序列进行处理,得到所述语音信息的序列特征以及局部特征;
根据所述语音信息的序列特征和局部特征识别所述语音信息的情感。


2.如权利要求1所述的方法,其特征在于,所述对所述语音信息进行提取得到所述语音信息的描述子向量,包括:
以预设时长的滑窗在所述语音信息上沿时间轴滑动,把所述语音信息切分为具有重叠部分的音频段,得到所述语音信息的描述子向量。


3.如权利要求1所述的方法,其特征在于,所述对所述语音信息的序列进行处理,得到所述语音信息的序列特征以及局部特征,包括:
将所述语音信息的序列进行矩阵分割,得到多个子序列;
将所述多个子序列分别提取特征并进行特征合并,得到所述语音信息的序列特征;
将所述多个子序列分别输入到第一激活函数后进行池化处理,得到所述语音信息的局部特征。


4.如权利要求1至3任一项所述的方法,其特征在于,所述根据所述语音信息的序列特征和局部特征识别所述语音信息的情感,包括:
将所述语音信息的序列特征和局部特征进行联合后得到联合特征;
将所述联合特征输入到第二激活函数中,得到所述语音信息的情感概率;
根据所述语音信息的情感概率,将最大情感概率对应的情感确定为所述语音信息的情感。


5.如权利要求4所述的方法,其特征在于,所述将所述语音信息的序列特征和局部特征进行联合后得到联合特征,包括:
将所述语音信息的序列特征和局部特征进行链接,并对链接结果进行随机丢弃操作后,输入到全连接层得到所述联合特征。


6.一种基于序列卷积的语音情感识别装置,其特征在于,包括:
获取单元,用于获取待识...

【专利技术属性】
技术研发人员:陈海波其他发明人请求不公开姓名
申请(专利权)人:深兰人工智能芯片研究院江苏有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1