本发明专利技术公开了一种基于小波神经网络的声纹特征提取模型构建方法及系统,所述方法包括:获取特定格式的声音数据,对所述声音数据进行预处理,转化为固定维度的声音信号;选择小波基函数,将所述小波基函数设置为神经网络隐藏层中神经元的传递激发函数,构造小波神经网络,设置训练参数;将所述声音信号输入所述小波神经网络进行计算,基于输出的预测值和真实值,根据所述训练参数对小波神经网络进行迭代训练,获得声纹特征提取模型。使用的小波神经网络模型训练简单,专业性要求低,得到的特征提取模型抗噪性能优秀,具有更强的表征能力。力。力。
【技术实现步骤摘要】
基于小波神经网络的声纹特征提取模型构建方法及系统
[0001]本专利技术涉及声纹识别
,尤其是涉及一种基于小波神经网络的声纹特征提取模型构建方法及系统。
技术介绍
[0002]声纹识别是对说话人的声音识别或者验证的应用系统,是通过辨别说话人声音信号中的独有特征来区分说话人的技术。特征提取是声纹识别中非常重要的一步,是将输入的说话人声音信号提取出特征向量,从而减少信息冗余,降低计算复杂度,降低噪声干扰,便于后续处理。由于语音具有短时平稳性,所以我们可以对声音信号进行分帧,得到每一帧再进行处理,就可以得到声音信号的短时频谱特征。当前使用最广泛的短时频谱特征是Mel倒谱系数。
[0003]Mel倒谱系数的步骤一般包括:数据预处理、快速傅里叶变换和倒谱计算。其中数据预处理包括预加重、分帧和加窗;倒谱计算包括计算Mel滤波器组、对数运算和离散余弦变换。计算Mel倒谱系数使用的傅里叶变换主要是三角函数(正弦函数或余弦函数)的线性组合,三角函数是全时域的,受到局部噪音的影响之后就会影响整个频谱,导致Mel倒谱系数抗噪性能较差。
技术实现思路
[0004]本专利技术的目的在于提供一种基于小波神经网络的声纹特征提取模型构建方法及系统,旨在解决Mel倒谱系数抗噪性能较差以及提取流程繁复的问题。
[0005]本专利技术提供一种基于小波神经网络的声纹特征提取模型构建方法,包括:
[0006]S1.获取特定格式的声音数据,对所述声音数据进行预处理,转化为固定维度的声音信号;
[0007]S2.选择小波基函数,将所述小波基函数设置为神经网络隐藏层中神经元的传递激发函数,构造小波神经网络,设置训练参数;
[0008]S3.将所述声音信号输入所述小波神经网络进行计算,基于输出的预测值和真实值,根据所述训练参数对小波神经网络进行迭代训练,获得声纹特征提取模型。
[0009]本专利技术提供一种基于小波神经网络的声纹特征提取模型构建系统,包括:
[0010]数据处理模块:用于获取特定格式的声音数据,对所述声音数据进行预处理,转化为固定维度的声音信号;
[0011]模型构建模块:用于通过将选择的小波基函数设置为神经网络隐藏层中神经元的传递激发函数,构造小波神经网络,设置训练参数;
[0012]模型训练模块:用于将所述声音信号输入所述小波神经网络进行计算,基于输出的预测值和真实值,根据所述训练参数对小波神经网络进行迭代训练,获得声纹特征提取模型。
[0013]本专利技术实施例还提供一种基于小波神经网络的声纹特征提取模型构建设备,包
括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述模型构建方法的步骤。
[0014]本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现上述模型构建方法的步骤。
[0015]本专利技术实施例中的小波神经网络模型训练简单,对专业性的要求低;最终得到的特征提取模型抗噪性能优秀;小波神经网络能够提取声音信号的深层特征,具有更强的表征能力。
[0016]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0017]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1是本专利技术实施例的基于小波神经网络的声纹特征提取模型构建方法的流程图;
[0019]图2是本专利技术实施例的小波神经网络结构图;
[0020]图3是本专利技术实施例的基于小波神经网络的声纹特征提取方法流程图;
[0021]图4是本专利技术实施例的基于小波神经网络的声纹特征提取模型构建系统示意图;
[0022]图5是本专利技术实施例的基于小波神经网络的声纹特征提取模型构建设备示意图。
具体实施方式
[0023]下面将结合实施例对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0024]在本专利技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。
[0025]此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者多个所述特征。在本专利技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。此外,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通
技术人员而言,可以具体情况理解上述术语在本专利技术中的具体含义。
[0026]方法实施例
[0027]根据本专利技术实施例,提供了一种基于小波神经网络的声纹特征提取模型构建方法,图1是本专利技术实施例的基于小波神经网络的声纹特征提取模型构建方法的流程图,如图1所示,根据本专利技术实施例的基于小波神经网络的声纹特征提取模型构建方法具体包括:
[0028]S1.获取特定格式的声音数据,对所述声音数据进行预处理,转化为固定维度的声音信号。
[0029]具体的,输入网络的数据需要是WAV格式、16KHZ采样率和16bit的语音,需要将获取到的数据处理成上述格式再输入神经网络。
[0030]S2.选择小波基函数,将所述小波基函数设置为神经网络隐藏层中神经元的传递激发函数,构造小波神经网络,设置训练参数。
[0031]小波神经网络是在误差反传神经网络结构的基础上发展而来的网络,其方法是将神经网络隐藏层中神经元的传递激发函数用小波基函数来代替,小波神经网络充分继承了小波变换和神经网络的优点,即时频局部化、对噪声不敏感和网络收敛速度快。
[0032]小波变换是在短时傅里叶变换的基础上发展而来的,它继承了短时傅里叶变换局部化的特点,也解决了短时傅里叶变本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于小波神经网络的声纹特征提取模型构建方法,其特征在于,包括:S1.获取特定格式的声音数据,对所述声音数据进行预处理,转化为固定维度的声音信号;S2.选择小波基函数,将所述小波基函数设置为神经网络隐藏层中神经元的传递激发函数,构造小波神经网络,设置训练参数;S3.将所述声音信号输入所述小波神经网络进行计算,基于输出的预测值和真实值,根据所述训练参数对小波神经网络进行迭代训练,获得声纹特征提取模型。2.根据权利要求1所述的方法,其特征在于,S2所述设置训练参数包括:初始化权重、设置初始学习率、选择优化器和损失函数以及设置迭代训练停止条件。3.根据权利要求2所述的方法,其特征在于,S3所述迭代训练具体过程为:S301.将声音信号输入小波神经网络计算,得到小波神经网络输出的预测值;S302.将所述预测值与真实值输入所述损失函数中计算损失函数值;S303.通过反向传播计算代价函数在每一个神经元节点处的偏导数,对损失函数计算权值对应的梯度,使用梯度下降算法更新小波神经网络中的权值;S304.重复执行S301到S303,直到达到所述迭代训练停止条件,得到所述声纹特征提取模型。4.根据权利要求3所述的方法,其特征在于,所述迭代训练停止条件为:设置迭代轮次最大值,当迭代次数达到所述最大值时停止迭代;保存每一轮迭代的模型,迭代结束后,选择所有迭代轮次中性能最好的模型作为声纹特征提取模型。5.根据权利要求1所述的方法,其特征在于,S1所述特定格式的声音数据为:WAV格式、16KHZ采样率和16bit的语音。6.一种基于小波神经网络的声纹特...
【专利技术属性】
技术研发人员:高军,张志伟,杨爽,张高峰,杨宇,常晓鹏,
申请(专利权)人:国网山东省电力公司菏泽供电公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。