基于波形时频域分析的语义和声纹双重识别的方法及系统技术方案

技术编号:22331805 阅读:26 留言:0更新日期:2019-10-19 12:35
本申请公开了一种基于波形时频域分析的语义和声纹双重识别的方法、系统及存储介质。其中,所述语义和声纹双重识别的方法包括:获取语音信号,基于小波时频域分析方法对语音信号进行降噪处理,根据经过降噪处理的语音信号建立信号时频方差图像,利用多层感知机对信号时频方差图像进行处理并识别语义和声纹。本申请实施例中,由于采用小波时频域分析方法在小波域实现对语音信号的降噪处理与特征提取处理,将一维的语音信号变换成二维的语音图像,利用图像处理的方法处理语音图像,因此能够从时域和频域同时对语音信号进行细致的分析以获得更详细的特征信息,从而能够实现语义和声纹的双重识别,以提升用户的使用体验。

【技术实现步骤摘要】
基于波形时频域分析的语义和声纹双重识别的方法及系统
本申请实施例涉及但不限于声音识别
,尤其涉及一种基于波形时频域分析的语义和声纹双重识别的方法、系统及存储介质。
技术介绍
语音识别,包括声纹识别和语义识别,声纹识别是指根据语音信号中包含的个人特征分量辨认说话人的身份,其关注的是说话人的个性特征;而语义识别则是根据语音信号中包含的内容信息识别说话人的说话内容,其关注的是说话人之间的共性特征。现有的语音识别方法中,往往只提取声纹特征而不识别语义内容,或者只对语义内容进行分析而没有对语音信号中包含的其他丰富信息进行充分的挖掘,仅能实现识别个人身份或者识别语义内容的功能,但这在信息技术高速发展的今天,是远不能满足人们的使用需求的,因此迫切需要一种更好的语音识别方法,以能够满足人们在物联网时代中对各种智能设备的使用。
技术实现思路
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。一方面,本申请实施例提供了一种基于波形时频域分析的语义和声纹双重识别的方法、系统及存储介质,能够对语义和声纹进行双重识别,以提升用户的使用体验。另一方面,本申请实施例提供了一种基于波形时频域分析的语义和声纹双重识别的方法,包括:获取语音信号;基于小波时频域分析方法对所述语音信号进行降噪处理;根据经过降噪处理的语音信号建立信号时频方差图像;利用经过训练的多层感知机对所述信号时频方差图像进行处理,识别语义和声纹。进一步,所述基于小波时频域分析方法对所述语音信号进行降噪处理,包括以下步骤:对所述语音信号进行端点检测,获取所述语音信号的起点和终点,得到有用语音信号;对所述有用语音信号进行小波变换,获取所述有用语音信号在不同尺度下的初始小波系数;获取第一自适应阈值,利用所述第一自适应阈值对所述有用语音信号进行整体降噪;获取第二自适应阈值,利用所述第二自适应阈值对经过整体降噪的有用语音信号进行局部降噪;获得对应于经过降噪处理的语音信号的小波系数。进一步,所述获取第一自适应阈值,利用所述第一自适应阈值对所述有用语音信号进行整体降噪,包括:利用以下公式获取第一自适应阈值:其中,λj为尺度j上的第一自适应阈值,为尺度j上带有噪声的有用语音信号xj(n)的小波系数的标准差,为尺度j上有用语音信号sj(n)的小波系数的标准差,j>0;根据所述第一自适应阈值利用以下公式对所述有用语音信号进行整体降噪:其中,为尺度j上经过整体降噪后的有用语音信号的小波系数,sgn(·)为符号函数。进一步,所述获取第二自适应阈值,利用所述第二自适应阈值对经过整体降噪的有用语音信号进行局部降噪,包括:利用以下公式获取第二自适应阈值:其中,为尺度j上的第二自适应阈值,为尺度j上带有噪声的有用语音信号xj(n)的小波系数的方差,为尺度j上有用语音信号sj(n)的小波系数的方差,为尺度j上噪声信号vj(n)的小波系数的方差,j>0;根据所述第二自适应阈值利用以下公式对经过整体降噪的有用语音信号进行局部降噪:其中,为尺度j上经过整体降噪后的有用语音信号的小波系数,yj(n)为尺度j上经过降噪处理的语音信号的小波系数。进一步,所述根据经过降噪处理的语音信号建立信号时频方差图像,包括以下步骤:重新排布对应于经过降噪处理的语音信号的所述小波系数,建立信号时频图像,所述信号时频图像的长度对应于不同的时间,所述信号时频图像的宽度对应于不同的频段;利用滑动窗口对所述信号时频图像中不同频段的小波系数进行处理,得到对应于不同频段的小波系数方差序列,建立信号时频方差图像。进一步,所述利用滑动窗口对所述信号时频图像中不同频段的小波系数进行处理,得到对应于不同频段的小波系数方差序列,建立信号时频方差图像,包括以下步骤:设定滑动窗口的宽度和移动距离;将所述滑动窗口在所述信号时频图像的不同频段中移动,计算所述滑动窗口在各个位置时所述滑动窗口内的小波系数的方差;将所述方差按照对应的频段进行归类排列,得到对应于不同频段的小波系数方差序列;将所述小波系数方差序列按照长度对应于时间、宽度对应于频段的方式建立信号时频方差图像。进一步,所述多层感知机包括1层输入层、5层隐藏层和1层输出层,所述输出层的输出信号为包括有性别信息、年龄信息、口音信息、身份号别信息和语义号别信息的二进制编码数据。进一步,所述利用多层感知机对所述信号时频方差图像进行处理,识别语义和声纹,包括以下步骤:对多层感知机进行训练;将所述信号时频方差图像中的数据输入到所述输入层;根据所述输出层的输出信号识别语义和声纹。另一方面,本申请实施例还提供了一种基于波形时频域分析的语义和声纹双重识别的系统,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如上所述的方法。另一方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上所述的方法。本申请实施例包括:利用小波时频域分析方法对语音信号进行降噪处理,以使语音信号在小波域中从一维的语音信号变换成二维的信号时频方差图像,即能够在小波域中完成对语音信号的降噪处理和对语义及声纹的特征提取,以减少系统资源的开销,实现更高效的语音信号识别过程;利用经过训练的多层感知机对信号时频方差图像进行处理,把用于图像处理的方法处理信号时频方差图像,从而在时域和频域中同时对语音信号进行细致的分析以获得更详细的关于语义和声纹的特征信息,不仅能够实现语义和声纹的双重识别,还具有较高的适应性和低计算复杂程度,适合实时系统的应用。本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。图1是本申请一个实施例提供的语义和声纹双重识别系统的示意图;图2是本申请一个实施例提供的语义和声纹双重识别方法的流程图;图3是本申请另一实施例提供的语义和声纹双重识别方法中对语音信号进行降噪处理的流程图;图4A是本申请另一实施例提供的语义和声纹双重识别方法中重新排布小波系数并建立信号时频方差图像的流程图;图4B是本申请一个实施例提供的小波分解示意图;图4C是本申请一个实施例提供的信号时频图像的示意图;图4D是本申请一个实施例提供的利用滑动窗口建立信号时频方差图像的流程图;图5A是本申请一个实施例提供的多层感知机的示意图;图5B是本申请另一实施例提供的多层感知机中输出层的示意图;图6是本申请另一实施例提供的语义和声纹双重识别方法中利用多层感知机识别语义和声纹的流程图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。需要说明的是,虽然在系统示意图中进行了功能模块划分,在流程图中示出了本文档来自技高网...

【技术保护点】
1.基于波形时频域分析的语义和声纹双重识别的方法,包括:获取语音信号;基于小波时频域分析方法对所述语音信号进行降噪处理;根据经过降噪处理的语音信号建立信号时频方差图像;利用经过训练的多层感知机对所述信号时频方差图像进行处理,识别语义和声纹。

【技术特征摘要】
1.基于波形时频域分析的语义和声纹双重识别的方法,包括:获取语音信号;基于小波时频域分析方法对所述语音信号进行降噪处理;根据经过降噪处理的语音信号建立信号时频方差图像;利用经过训练的多层感知机对所述信号时频方差图像进行处理,识别语义和声纹。2.根据权利要求1所述的方法,其特征在于,所述基于小波时频域分析方法对所述语音信号进行降噪处理,包括以下步骤:对所述语音信号进行端点检测,获取所述语音信号的起点和终点,得到有用语音信号;对所述有用语音信号进行小波变换,获取所述有用语音信号在不同尺度下的初始小波系数;获取第一自适应阈值,利用所述第一自适应阈值对所述有用语音信号进行整体降噪;获取第二自适应阈值,利用所述第二自适应阈值对经过整体降噪的有用语音信号进行局部降噪;获得对应于经过降噪处理的语音信号的小波系数。3.根据权利要求2所述的方法,其特征在于,所述获取第一自适应阈值,利用所述第一自适应阈值对所述有用语音信号进行整体降噪,包括:利用以下公式获取第一自适应阈值:其中,λj为尺度j上的第一自适应阈值,为尺度j上带有噪声的有用语音信号xj(n)的小波系数的标准差,为尺度j上有用语音信号sj(n)的小波系数的标准差,j>0;根据所述第一自适应阈值利用以下公式对所述有用语音信号进行整体降噪:其中,为尺度j上经过整体降噪后的有用语音信号的小波系数,sgn(·)为符号函数。4.根据权利要求3所述的方法,其特征在于,所述获取第二自适应阈值,利用所述第二自适应阈值对经过整体降噪的有用语音信号进行局部降噪,包括:利用以下公式获取第二自适应阈值:其中,为尺度j上的第二自适应阈值,为尺度j上带有噪声的有用语音信号xj(n)的小波系数的方差,为尺度j上有用语音信号sj(n)的小波系数的方差,为尺度j上噪声信号vj(n)的小波系数的方差,j>0;根据所述第二自适应阈值利用以下公式对经过整体降噪的有用语音信号进行局部降噪:其中,为尺度j上经过整体降噪后的有用语音信号的小波系数,yj(n)为尺度j上经过降噪处理的语音信号的小波系数。...

【专利技术属性】
技术研发人员:罗高涌林海龙曹海涛胡宇鹏
申请(专利权)人:江门市华恩电子研究院有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1