说话人辨认方法及系统技术方案

技术编号:29159907 阅读:33 留言:0更新日期:2021-07-06 23:00
本发明专利技术提供一种说话人辨认方法及系统,属于说话人辨认技术领域,使用确认网络对语音信号进行分析,提取语音信号的声纹特征,确认所述语音信号是否来自同一个说话人;使用辨认网络对语音信号的声纹特征进行分析,辨认所述语音信号的说话人身份。本发明专利技术提取了说话人特有的声纹特征,减少了信道噪声干扰,提高了说话人辨认准确率;采用多任务学习的形式使得说话人确认网络和说话人辨认网络能互相辅助,提高了确认效果和辨认效果;结合说话人确认技术模拟了人脑思维模式,在说话人数量庞大,辨认难度高的情况下,结合确认技术来进行辨认;对人脑思维模式的模拟应用,提高了算法的智能性,增强了模型在高难度情况下的辨认能力。

【技术实现步骤摘要】
说话人辨认方法及系统
本专利技术涉及说话人辨认
,具体涉及一种提高了说话人辨认准确率的说话人辨认方法及系统。
技术介绍
说话人识别具有广阔的应用前景,可广泛用于安防、社保、刑侦等领域。说话人识别包括说话人确认和说话人辨认两大技术。说话人确认是指根据说话声确认当前的说话人是否是已经登记注册的人员,或者确定两个说话声是否来自于同一个人。说话人确认是一项二类分类技术。说话人辨认是指根据人的说话声来判别说话人的身份,是一种多类分类技术。说话人辨认的实施方法通常是搭建特征提取模型来提取说话人的语音特征,然后将语音特征送入说话人分类模型实现辨认。特征提取模型提取的说话人的语音特征往往有较大的信道噪声干扰,不能很好地展现说话人特有的声纹特征,导致说话人辨认的准确率较低。
技术实现思路
本专利技术的目的在于提供一种结合说话人确认技术和说话人辨认技术来进行说话人辨认,提高了说话人辨认准确率的说话人辨认方法及系统,以解决上述
技术介绍
中存在的至少一项技术问题。为了实现上述目的,本专利技术采取了如下技术方案:一方面,本专利技术提供一种说话人辨认方法,包括:使用确认网络对语音信号进行分析,确认所述语音信号是否来自同一个说话人,确认网络能提取说话人特有的声纹特征,减少特征中信道噪声的干扰;其中,所述确认网络使用第一训练集训练得到,所述第一训练集包括第一数据对儿和第二数据对儿;使用辨认网络对语音信号的声纹特征进行分析,辨认所述语音信号的说话人身份,声纹特征是通过确认网络辅助提取的,信道噪声干扰小,基于此类声纹特征进行说话人身份辨认,将能提高辨认准确率;其中,所述辨认网络使用第二训练集训练得到,所述第二训练集包括说话人的语音片段的声纹特征以及标识该语音片段的说话人身份的标签。优选的,所述第一数据对儿由某一说话人的第一语音片段的特征矩阵、该某一说话人的第二语音片段的特征矩阵以及标识第一语音片段和第二语音片段来自于该某一说话人的标签组成;所述第二数据对儿由某一说话人的第一语音片段的特征矩阵、其它说话人的某一语音片段的特征矩阵以及标识某一说话人的第一语音片段和其它说话人的某一语音片段来自于不同说话人的标签组成。神经网络的训练是一个迭代的过程,在以下说话人确认网络和说话人辨认网络的训练的步骤都是指在一轮迭代中的步骤。将迭代重复进行多次,直至神经网络的损失函数值减少到小于预先设定的阈值为止。优选的,使用第一训练集训练得到所述确认网络包括:某一说话人的第一语音片段的特征矩阵为F1,该某一说话人的除了第一语音片段之外的其它语音片段中随机选取的第二语音片段的特征矩阵为F2,其它说话人中随机选取某一语音片段的特征矩阵记为F2’;第一数据对儿(F1,F2,0)中,0表示F1和F2来自于同一个说话人的标签;第二数据对儿(F1,F2’,1)中,1表示F1和F2’来自于不同说话人的标签;将F1作为第一卷积神经网络的输入,通过第一卷积神经网络将其映射为特征向量E1;随机从第一数据对儿和第二数据对儿中选取一个数据对儿;如果选到的是第一数据对儿,则将F2作为第二卷积神经网络的输入,通过第二卷积神经网络将其映射为特征向量E2;如果选到的是第二数据对儿,则将F2’作为第二卷积神经网络的输入,通过第二卷积神经网络将其映射为特征向量E2’;如果第二卷积神经网络映射得到特征向量E2,则求特征向量E1和特征向量E2的L1距离向量:L1=|E1-E2|;如果第二卷积神经网络映射得到特征向量E2’,则求特征向量E1和特征向量E2’的L1距离向量:L1=|E1-E2’|。其中,L1=|·|表示对向量的每一维求绝对值。L1距离向量后接确认网络的全连接层和输出层,通过全连接层和输出层的映射得到确认网络的输出值。前述随机从第一数据对儿和第二数据对儿中选取一个数据对儿时,如果选到的是第一数据对儿,则以标签0作为确认网络输出层的理想输出,如果选到的是第二数据对儿,则以标签1作为确认网络输出层的理想输出;用确认网络输出层的理想输出和确认网络输出层的实际输出求差的平方值,将此值记作P。优选的,以第一语音片段的特征矩阵F1所对应的说话人的身份标签作为辨认网络输出层的理想输出。用辨认网络输出层的理想输出和辨认网络输出层的实际输出求平方欧式距离,将此距离值记作Q。以P+Q作为整体神经网络模型的损失函数,对模型进行训练。整体神经网络模型包括确认网络和辨认网络。由F1输入至第一卷积神经网络映射为E1的处理部分是确认网络和辨认网络共享的部分,由此共享部分将确认网络和辨认网络连接成一个整体神经网络。整体神经网络模型训练好以后,固定模型参数。应用整体神经网络模型进行说话人辨认的步骤如下:对待辨认身份的语音片段进行分帧处理,对每帧提取39维的MFCC特征,语音片段内所有帧的MFCC特征组成该语音片段的MFCC特征矩阵;将待辨认身份的语音片段的MFCC特征矩阵同时作为第一卷积神经网络和第二卷积神经网络的输入值,在辨认网络的输出层得到待辨认身份的语音片段在各个说话人身份上的概率分布,以具有最大概率值的说话人身份作为辨认结果。优选的,所述特征矩阵为MFCC特征矩阵。第二方面,本专利技术提供一种说话人辨认系统,包括:确认模块,用于使用确认网络对语音信号进行分析,提取语音信号的声纹特征,确认所述语音信号是否来自同一个说话人;其中,所述确认网络使用第一训练集训练得到,所述第一训练集包括第一数据对儿和第二数据对儿;辨认模块,用于使用辨认网络对语音信号的声纹特征进行分析,辨认所述语音信号的说话人身份;其中,所述辨认网络使用第二训练集训练得到,所述第二训练集包括说话人的语音片段的声纹特征以及标识该语音片段的说话人身份的标签。优选的,所述第一数据对儿由某一说话人的第一语音片段的特征矩阵、该某一说话人的第二语音片段的特征矩阵以及标识第一语音片段和第二语音片段来自于该某一说话人的标签组成;所述第二数据对儿由某一说话人的第一语音片段的特征矩阵、其它说话人的某一语音片段的特征矩阵以及标识某一说话人的第一语音片段和其它说话人的某一语音片段来自于不同说话人的标签组成。优选的,所述特征矩阵为MFCC特征矩阵。第三方面,本专利技术提供一种计算机设备,包括存储器和处理器,所述处理器和所述存储器相互通信,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令执行如上所述的说话人辨认方法。第四方面,本专利技术提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的说话人辨认方法。本专利技术有益效果:通过说话人确认网络辅助提取说话人特有的声纹特征,减少提取的特征中的信道噪声干扰,因而能有效地辅助提高说话人辨认准确率;采用多任务学习的形式将说话人确认技术和说话人辨认技术相结合,使得说话人确认网络和说话人辨认网络能互相辅助对方提高网络的分类识别能力,同时取得较好的确认效果和辨认效果;结合说话人确认技术的说话人辨认方法模拟了人脑本文档来自技高网...

【技术保护点】
1.一种说话人辨认方法,其特征在于,包括:/n使用确认网络对语音信号进行分析,提取语音信号的声纹特征,确认所述语音信号是否来自同一个说话人;其中,所述确认网络使用第一训练集训练得到,所述第一训练集包括第一数据对儿和第二数据对儿;/n使用辨认网络对语音信号的声纹特征进行分析,辨认所述语音信号的说话人身份;其中,所述辨认网络使用第二训练集训练得到,所述第二训练集包括说话人的语音片段的声纹特征以及标识该语音片段的说话人身份的标签。/n

【技术特征摘要】
1.一种说话人辨认方法,其特征在于,包括:
使用确认网络对语音信号进行分析,提取语音信号的声纹特征,确认所述语音信号是否来自同一个说话人;其中,所述确认网络使用第一训练集训练得到,所述第一训练集包括第一数据对儿和第二数据对儿;
使用辨认网络对语音信号的声纹特征进行分析,辨认所述语音信号的说话人身份;其中,所述辨认网络使用第二训练集训练得到,所述第二训练集包括说话人的语音片段的声纹特征以及标识该语音片段的说话人身份的标签。


2.根据权利要求1所述的说话人辨认方法,其特征在于:所述第一数据对儿由某一说话人的第一语音片段的特征矩阵、该某一说话人的第二语音片段的特征矩阵以及标识第一语音片段和第二语音片段来自于该某一说话人的标签组成;
所述第二数据对儿由某一说话人的第一语音片段的特征矩阵、其它说话人的某一语音片段的特征矩阵以及标识某一说话人的第一语音片段和其它说话人的某一语音片段来自于不同说话人的标签组成。


3.根据权利要求2所述的说话人辨认方法,其特征在于,使用第一训练集和所述第二训练集训练得到所述确认网络和所述辨认网络包括:
某一说话人的第一语音片段的特征矩阵为F1,该某一说话人的除了第一语音片段之外的其它语音片段中随机选取的第二语音片段的特征矩阵为F2,其它说话人中随机选取某一语音片段的特征矩阵记为F2’;
第一数据对儿(F1,F2,0)中,0表示F1和F2来自于同一个说话人的标签;第二数据对儿(F1,F2’,1)中,1表示F1和F2’来自于不同说话人的标签;
将F1作为第一卷积神经网络的输入,通过第一卷积神经网络将其映射为特征向量E1;
随机从第一数据对儿和第二数据对儿中选取一个数据对儿;如果选到的是第一数据对儿,则将F2作为第二卷积神经网络的输入,通过第二卷积神经网络将其映射为特征向量E2;如果选到的是第二数据对儿,则将F2’作为第二卷积神经网络的输入,通过第二卷积神经网络将其映射为特征向量E2’;
如果第二卷积神经网络映射得到特征向量E2,则求特征向量E1和特征向量E2的L1距离向量:L1=|E1-E2|;如果第二卷积神经网络映射得到特征向量E2’,则求特征向量E1和特征向量E2’的L1距离向量:L1=|E1-E2’|;
L1距离向量后接确认网络的全连接层和输出层,通过全连接层和输出层的映射得到确认网络的输出值。

【专利技术属性】
技术研发人员:冷严李文静赵玮玮孙建德唐勇齐广慧王荣燕李登旺万洪林
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1