【技术实现步骤摘要】
一种声纹识别方法、系统及存储介质
[0001]本专利技术涉及语音识别
,更具体地,涉及一种声纹识别方法、系统及存储介质。
技术介绍
[0002]声纹和指纹一样,是一种独特的生物特征,由于其独特性和长期稳定性,通过声纹识别可以唯一的确定不同说话人的身份。然而,在实际的生产生活中,声纹往往会受到个人生理心理及外界环境等因素的影响,从而导致的声纹识别存在一定困难,因此,如何提高声纹识别的准确性,使其能很好的区分众多的其他人,是目前一直比较重要的研究方向。
技术实现思路
[0003]本专利技术针对现有技术中存在的技术问题,提供一种声纹识别方法、系统及存储介质。
[0004]根据本专利技术的第一方面,提供了一种声纹识别方法,包括:
[0005]收集不同人物身份的原始语音数据,从所述原始语音数据中提取对应的语音特征;
[0006]获取训练样本集,所述训练样本集包括多个样本,每一个样本包括一条语音特征和对应的人物身份,并基于所述训练样本集对声纹识别网络进行训练,所述声纹识别网络为基于se
‑
block的resnet残差网络;
[0007]将从已知人物身份的原始语音数据中提取的语音特征输入训练后的声纹识别网络中,提取每一个已知人物身份的声纹特征,并存储于声纹数据库中;
[0008]将待识别原始语音数据的语音特征输入训练后的声纹识别网络中,提取所述待识别原始语音数据的声纹特征;
[0009]将所述待识别原始语音数据的声纹特征与声纹数据库中的每一个已 ...
【技术保护点】
【技术特征摘要】
1.一种声纹识别方法,其特征在于,包括:收集不同人物身份的原始语音数据,从所述原始语音数据中提取对应的语音特征;获取训练样本集,所述训练样本集包括多个样本,每一个样本包括一条语音特征和对应的人物身份,并基于所述训练样本集对声纹识别网络进行训练,所述声纹识别网络为基于se
‑
block的resnet残差网络;将从已知人物身份的原始语音数据中提取的语音特征输入训练后的声纹识别网络中,提取每一个已知人物身份的声纹特征,并存储于声纹数据库中;将待识别原始语音数据的语音特征输入训练后的声纹识别网络中,提取所述待识别原始语音数据的声纹特征;将所述待识别原始语音数据的声纹特征与声纹数据库中的每一个已知人物身份的声纹特征进行匹配,基于匹配结果确定所述待识别原始语音数据的人物身份。2.根据权利要求1所述的声纹识别方法,其特征在于,所述收集不同人物身份的原始语音数据,从所述原始语音数据中提取对应的语音特征,包括:收集不同人物身份的原始语音数据,对所述原始语音数据进行静音切割,得到有效语音片段;对所述有效语音片段进行语音分帧、加窗、预加重和加噪处理,筛选同一个人物身份的有效音频片段;对所述有效音频片段经过傅里叶变换得到语音频谱;将所述语音频谱通过梅尔滤波器进行滤波,去均值后,得到梅尔倒谱特征矩阵,即语音特征。3.根据权利要求1或2所述的声纹识别方法,其特征在于,所述基于se
‑
block的resnet残差网络包括频谱增强层、初始卷积层、四个依次连接的卷积层、统计池化层、全连接层和softmax层,每一个所述卷积层包括多个基于se
‑
block的resnet残差块;所述语音特征依次经过所述频谱增强层、初始卷积层、四个卷积层,并经过所述统计池化层、全连接层和softmax层,且经过全连接层提取声纹特征。4.根据权利要求3所述的声纹识别方法,其特征在于,所述基于se
‑
block的resnet残差块包括se
‑
block模块和resnet残差块;输入信号经过所述的resnet残差块,一路特征经过其主干部分与se
‑
block串联得到加权后的特征,再与所述resnet残差块的分支特征相加,作为基于se
‑
block的resnet残差块的输出特征。5.根据权利要求4所述的声纹识别方法,其特征在于,所述resnet残差块包括主干和分支,所述主干包括第一3*3卷积层、第一规整层、激活函数层、第二3*3卷积层和第二规整层;输入信号通过所述主干输出主干特征,所述主干特征与分支特征相加,得到所述resnet残差块的输出特征。6.根据权利要求5所述的声纹识别方法,其特征在于,所述se
‑
block模块包括全局池化层、第一全连接层、Relu激活函数、第二全连接层和sigmoid激活函数;所述全局池化层用来实现对输入特征进行挤压操作,所述挤压操作为对每个通道的特征图进行全局平均池化,其公式表示如下:
其中,H,W为特征图的像素长宽,u
c
为第c个特征图,c为通道,F
sq
是压缩操...
【专利技术属性】
技术研发人员:程俊杰,胡华,周逸聪,孙涛,龚梁,
申请(专利权)人:武汉烽火普天信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。