一种声纹识别方法、系统及存储介质技术方案

技术编号:36344156 阅读:58 留言:0更新日期:2023-01-14 17:58
本发明专利技术提供一种声纹识别方法、系统及存储介质,方法包括:基于从不同人物身份的原始语音数据提取的语音特征,训练声纹识别网络,声纹识别网络为基于se

【技术实现步骤摘要】
一种声纹识别方法、系统及存储介质


[0001]本专利技术涉及语音识别
,更具体地,涉及一种声纹识别方法、系统及存储介质。

技术介绍

[0002]声纹和指纹一样,是一种独特的生物特征,由于其独特性和长期稳定性,通过声纹识别可以唯一的确定不同说话人的身份。然而,在实际的生产生活中,声纹往往会受到个人生理心理及外界环境等因素的影响,从而导致的声纹识别存在一定困难,因此,如何提高声纹识别的准确性,使其能很好的区分众多的其他人,是目前一直比较重要的研究方向。

技术实现思路

[0003]本专利技术针对现有技术中存在的技术问题,提供一种声纹识别方法、系统及存储介质。
[0004]根据本专利技术的第一方面,提供了一种声纹识别方法,包括:
[0005]收集不同人物身份的原始语音数据,从所述原始语音数据中提取对应的语音特征;
[0006]获取训练样本集,所述训练样本集包括多个样本,每一个样本包括一条语音特征和对应的人物身份,并基于所述训练样本集对声纹识别网络进行训练,所述声纹识别网络为基于se

block的resnet残差网络;
[0007]将从已知人物身份的原始语音数据中提取的语音特征输入训练后的声纹识别网络中,提取每一个已知人物身份的声纹特征,并存储于声纹数据库中;
[0008]将待识别原始语音数据的语音特征输入训练后的声纹识别网络中,提取所述待识别原始语音数据的声纹特征;
[0009]将所述待识别原始语音数据的声纹特征与声纹数据库中的每一个已知人物身份的声纹特征进行匹配,基于匹配结果确定所述待识别原始语音数据的人物身份。
[0010]根据本专利技术的第二方面,提供一种声纹识别系统,包括:
[0011]第一提取模块,用于收集不同人物身份的原始语音数据,从所述原始语音数据中提取对应的语音特征;
[0012]训练模块,用于获取训练样本集,所述训练样本集包括多个样本,每一个样本包括一条语音特征和对应的人物身份,并基于所述训练样本集对声纹识别网络进行训练,所述声纹识别网络为基于se

block的resnet残差网络;
[0013]第二提取模块,用于将从已知人物身份的原始语音数据中提取的语音特征输入训练后的声纹识别网络中,提取每一个已知人物身份的声纹特征,并存储于声纹数据库中;以及将待识别原始语音数据的语音特征输入训练后的声纹识别网络中,提取所述待识别原始语音数据的声纹特征;
[0014]识别模块,用于将所述待识别原始语音数据的声纹特征与声纹数据库中的每一个
已知人物身份的声纹特征进行匹配,基于匹配结果确定所述待识别原始语音数据的人物身份。
[0015]根据本专利技术的第三方面,提供了一种电子设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现声纹识别方法的步骤。
[0016]根据本专利技术的第四方面,提供了一种计算机可读存储介质,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现声纹识别方法的步骤。
[0017]本专利技术提供的一种声纹识别方法、系统及存储介质,基于se

block的resnet残差网络对声纹进行识别,能够提高声纹识别的准确性。
附图说明
[0018]图1为本专利技术提供的一种声纹识别方法流程图;
[0019]图2为声纹识别网络结构示意图;
[0020]图3为基于se

block的残差块结构示意图;
[0021]图4为resnet残差块的结构示意图;
[0022]图5为se

block模块的基本结构示意图;
[0023]图6为本专利技术提供的一种声纹识别系统的结构示意图;
[0024]图7为本专利技术提供的一种可能的电子设备的硬件结构示意图;
[0025]图8为本专利技术提供的一种可能的计算机可读存储介质的硬件结构示意图。
具体实施方式
[0026]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。另外,本专利技术提供的各个实施例或单个实施例中的技术特征可以相互任意结合,以形成可行的技术方案,这种结合不受步骤先后次序和/或结构组成模式的约束,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本专利技术要求的保护范围之内。
[0027]图1为本专利技术提供的一种声纹识别方法流程图,如图1所示,声纹识别方法主要包括:
[0028]S1,收集不同人物身份的原始语音数据,从所述原始语音数据中提取对应的语音特征。
[0029]作为实施例,所述收集不同人物身份的原始语音数据,从所述原始语音数据中提取对应的语音特征,包括:收集不同人物身份的原始语音数据,对所述原始语音数据进行静音切割,得到有效语音片段;对所述有效语音片段进行语音分帧、加窗、预加重和加噪处理,筛选同一个人物身份的有效音频片段;对所述有效音频片段经过傅里叶变换得到语音频谱;将所述语音频谱通过梅尔滤波器进行滤波,去均值后,得到梅尔倒谱特征矩阵,即语音特征。
[0030]可理解的是,收集不同人物身份的原始语音数据,作为训练声纹识别网络的原始
语音数据。对原始语音数据进行统一处理,数据预处理的操作主要是,首先进行静音切割,得到有效语音片段;然后对有效语音片段进行语音分帧、加窗、预加重、加噪等预处理操作,筛选同一个说话人音频的有效片段,即通过一个人物身份的有效音频片段,保留超过5秒且音频条数超过8条的语音数据。
[0031]将上一步筛选后的数据经过傅立叶变换得到语音频谱,再将其通过梅尔滤波器进行滤波,去均值后,最终得到81维的梅尔倒谱特征矩阵。将所有人的梅尔倒谱特征矩阵切分为每200帧的片段。
[0032]S2,获取训练样本集,所述训练样本集包括多个样本,每一个样本包括一条语音特征和对应的人物身份,并基于所述训练样本集对声纹识别网络进行训练,所述声纹识别网络为基于se

block的resnet残差网络。
[0033]可理解的是,上述步骤S1收集不同人物身份的原始语音数据,那么每一个语音特征片段也对应有人物身份。将一条语音特征和对应的人物身份作为一个样本数据,多个样本数据组成训练样本集,基于训练样本集对声纹识别网络进行训练,得到训练后的声纹识别网络,其中,声纹识别网络为基于se

block的resnet残差网络。在训练过程中,将处理好的语音特征,进行分批处理,逐步送入基于se

block的resnet网络中,根据实际情况调整学习率等优化参数得到一个稳定的有效本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声纹识别方法,其特征在于,包括:收集不同人物身份的原始语音数据,从所述原始语音数据中提取对应的语音特征;获取训练样本集,所述训练样本集包括多个样本,每一个样本包括一条语音特征和对应的人物身份,并基于所述训练样本集对声纹识别网络进行训练,所述声纹识别网络为基于se

block的resnet残差网络;将从已知人物身份的原始语音数据中提取的语音特征输入训练后的声纹识别网络中,提取每一个已知人物身份的声纹特征,并存储于声纹数据库中;将待识别原始语音数据的语音特征输入训练后的声纹识别网络中,提取所述待识别原始语音数据的声纹特征;将所述待识别原始语音数据的声纹特征与声纹数据库中的每一个已知人物身份的声纹特征进行匹配,基于匹配结果确定所述待识别原始语音数据的人物身份。2.根据权利要求1所述的声纹识别方法,其特征在于,所述收集不同人物身份的原始语音数据,从所述原始语音数据中提取对应的语音特征,包括:收集不同人物身份的原始语音数据,对所述原始语音数据进行静音切割,得到有效语音片段;对所述有效语音片段进行语音分帧、加窗、预加重和加噪处理,筛选同一个人物身份的有效音频片段;对所述有效音频片段经过傅里叶变换得到语音频谱;将所述语音频谱通过梅尔滤波器进行滤波,去均值后,得到梅尔倒谱特征矩阵,即语音特征。3.根据权利要求1或2所述的声纹识别方法,其特征在于,所述基于se

block的resnet残差网络包括频谱增强层、初始卷积层、四个依次连接的卷积层、统计池化层、全连接层和softmax层,每一个所述卷积层包括多个基于se

block的resnet残差块;所述语音特征依次经过所述频谱增强层、初始卷积层、四个卷积层,并经过所述统计池化层、全连接层和softmax层,且经过全连接层提取声纹特征。4.根据权利要求3所述的声纹识别方法,其特征在于,所述基于se

block的resnet残差块包括se

block模块和resnet残差块;输入信号经过所述的resnet残差块,一路特征经过其主干部分与se

block串联得到加权后的特征,再与所述resnet残差块的分支特征相加,作为基于se

block的resnet残差块的输出特征。5.根据权利要求4所述的声纹识别方法,其特征在于,所述resnet残差块包括主干和分支,所述主干包括第一3*3卷积层、第一规整层、激活函数层、第二3*3卷积层和第二规整层;输入信号通过所述主干输出主干特征,所述主干特征与分支特征相加,得到所述resnet残差块的输出特征。6.根据权利要求5所述的声纹识别方法,其特征在于,所述se

block模块包括全局池化层、第一全连接层、Relu激活函数、第二全连接层和sigmoid激活函数;所述全局池化层用来实现对输入特征进行挤压操作,所述挤压操作为对每个通道的特征图进行全局平均池化,其公式表示如下:
其中,H,W为特征图的像素长宽,u
c
为第c个特征图,c为通道,F
sq
是压缩操...

【专利技术属性】
技术研发人员:程俊杰胡华周逸聪孙涛龚梁
申请(专利权)人:武汉烽火普天信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1