基于小波神经网络的声纹特征提取模型构建方法及系统技术方案

技术编号：32551442 阅读：49 留言：0更新日期：2022-03-05 11:51

本发明专利技术公开了一种基于小波神经网络的声纹特征提取模型构建方法及系统，所述方法包括：获取特定格式的声音数据，对所述声音数据进行预处理，转化为固定维度的声音信号；选择小波基函数，将所述小波基函数设置为神经网络隐藏层中神经元的传递激发函数，构造小波神经网络，设置训练参数；将所述声音信号输入所述小波神经网络进行计算，基于输出的预测值和真实值，根据所述训练参数对小波神经网络进行迭代训练，获得声纹特征提取模型。使用的小波神经网络模型训练简单，专业性要求低，得到的特征提取模型抗噪性能优秀，具有更强的表征能力。力。力。

全部详细技术资料下载

【技术实现步骤摘要】
基于小波神经网络的声纹特征提取模型构建方法及系统

[0001]本专利技术涉及声纹识别
，尤其是涉及一种基于小波神经网络的声纹特征提取模型构建方法及系统。

技术介绍

[0002]声纹识别是对说话人的声音识别或者验证的应用系统，是通过辨别说话人声音信号中的独有特征来区分说话人的技术。特征提取是声纹识别中非常重要的一步，是将输入的说话人声音信号提取出特征向量，从而减少信息冗余，降低计算复杂度，降低噪声干扰，便于后续处理。由于语音具有短时平稳性，所以我们可以对声音信号进行分帧，得到每一帧再进行处理，就可以得到声音信号的短时频谱特征。当前使用最广泛的短时频谱特征是Mel倒谱系数。
[0003]Mel倒谱系数的步骤一般包括：数据预处理、快速傅里叶变换和倒谱计算。其中数据预处理包括预加重、分帧和加窗；倒谱计算包括计算Mel滤波器组、对数运算和离散余弦变换。计算Mel倒谱系数使用的傅里叶变换主要是三角函数(正弦函数或余弦函数)的线性组合，三角函数是全时域的，受到局部噪音的影响之后就会影响整个频谱，导致Mel倒谱系数抗噪性能较差。

技术实现思路

[0004]本专利技术的目的在于提供一种基于小波神经网络的声纹特征提取模型构建方法及系统，旨在解决Mel倒谱系数抗噪性能较差以及提取流程繁复的问题。
[0005]本专利技术提供一种基于小波神经网络的声纹特征提取模型构建方法，包括：
[0006]S1.获取特定格式的声音数据，对所述声音数据进行预处理，转化为固定维度的声音信号；
[0007]S...

【技术保护点】

【技术特征摘要】
1.一种基于小波神经网络的声纹特征提取模型构建方法，其特征在于，包括：S1.获取特定格式的声音数据，对所述声音数据进行预处理，转化为固定维度的声音信号；S2.选择小波基函数，将所述小波基函数设置为神经网络隐藏层中神经元的传递激发函数，构造小波神经网络，设置训练参数；S3.将所述声音信号输入所述小波神经网络进行计算，基于输出的预测值和真实值，根据所述训练参数对小波神经网络进行迭代训练，获得声纹特征提取模型。2.根据权利要求1所述的方法，其特征在于，S2所述设置训练参数包括：初始化权重、设置初始学习率、选择优化器和损失函数以及设置迭代训练停止条件。3.根据权利要求2所述的方法，其特征在于，S3所述迭代训练具体过程为：S301.将声音信号输入小波神经网络计算，得到小波神经网络输出的预测值；S302.将所述预测值与真实值输入所述损失函数中计算损失函数值；S303.通过反向传播计算代价函数在每一个神经元节点处的偏导数，对损失函数计算权值对应的梯度，使用梯度下降算法更新小波神经网络中的权值；S304.重复执行S301到S303，直到达到所述迭代训练停止条件，得到所述声纹特征提取模型。4.根据权利要求3所述的方法，其特征在于，所述迭代训练停止条件为：设置迭代轮次最大值，当迭代次数达到所述最大值时停止迭代；保存每一轮迭代的模型，迭代结束后，选择所有迭代轮次中性能最好的模型作为声纹特征提取模型。5.根据权利要求1所述的方法，其特征在于，S1所述特定格式的声音数据为：WAV格式、16KHZ采样率和16bit的语音。6.一种基于小波神经网络的声纹特...

【专利技术属性】
技术研发人员：高军，张志伟，杨爽，张高峰，杨宇，常晓鹏，
申请(专利权)人：国网山东省电力公司菏泽供电公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人