本发明专利技术涉及身份识别技术领域,公开了一种说话人识别方法及系统,该方法包括:采集不同信道下的用户注册语音信号;从采集的所述语音信号中分别提取声纹特征序列;利用所述声纹特征序列训练生成对应所述用户的说话人模型;根据所述说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。本发明专利技术说话人识别方法及系统,可以适应不同的信道环境,提高系统性能。
【技术实现步骤摘要】
本专利技术涉及身份识别
,特别涉及一种说话人识别方法及系统。
技术介绍
说话人识别即根据采集到的语音信号判断说话人身份,该技术主要有两个方面的应用,即说话人确认和说话人识别。说话人确认是指判断当前输入语音是否为其申明的目标说话人的发音,属于一对一的判断问题;而说话人识别是指从目标说话人集合中选定对应于当前语音输入的发音人,属于一对多的模型辨识问题。说话人识别技术在军事、国家安全、刑侦领域和银行、证券等金融领域有着广泛的应用。目前说话人识别最为主流的技术路线是GMM-UBM算法,即分别采用混合高斯模型 (Gaussian Mixture Model, GMM)模拟各说话人模型及单独的通用背景模型(Universal Background Model, UBM),通过比较说话人模型及背景模型相对于输入语音信号的声纹特征的似然比确定说话人身份。具体地,在进行说话人确认时根据说话人模型及背景模型的似然比和预置阈值的大小判断是否为目标说话人,而在进行说话人识别时则比较所有说话人模型的似然比大小并选择具有最大似然比的说话人为识别结果。通常,对说话人模型的模拟效果会随着训练数据量的增多而得到进一步的改善, 从而使说话人识别系统的性能得到提高。然而在实际应用中,实际检测环境和模型训练环境往往不尽相同,语音通信中通信信道或通信工具的任何变化都会引起语音信号不同程度的畸变,进而导致训练数据和测试采集信道不匹配,训练模型不能很好地模拟测试数据,影响了系统性能。因此,如何改善说话人识别系统在不同信道环境下的识别稳定性,提高该系统的鲁棒性和普适性已成为当前亟待解决的实际问题。
技术实现思路
本专利技术实施例针对上述现有技术存在的问题,提供一种说话人识别方法及系统, 以适应不同的信道环境,提高系统性能。本专利技术实施例提供一种说话人识别方法,包括采集不同信道下的用户注册语音信号;从采集的所述语音信号中分别提取声纹特征序列;利用所述声纹特征序列训练生成对应所述用户的说话人模型;根据所述说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。优选地,所述采集不同信道下的用户注册语音信号包括利用选定的多个不同的麦克风分别采集所述用户注册语音信号。优选地,所述方法还包括检测不同麦克风与不同用户端设备的信道相似度;根据得到的信道相似度选定多个不同的麦克风。优选地,所述检测不同麦克风与不同用户设备的信道相似度包括将所述不同麦克风和所述不同用户端设备置于音箱的同一波束面上;通过所述音箱播放用户录音;利用所述不同麦克风和所述不同用户端设备对所述用户录音进行同步采集;对于每个麦克风和用户端设备,计算该麦克风和该用户端设备在采集到的语音信号上的主观语音质量评估PESQ值,将PESQ值作为该麦克风和该用户端设备的信道相似度。优选地,所述根据得到的相似度选定多个不同的麦克风包括利用线性函数D = S-PESQ将所述信道相似度映射到新的距离度量空间,其中,D表示映射距离,S为系统参数;以各麦克风为聚类初始类中心,采用自下而上的聚类算法合并具有相似PESQ值分布的麦克风;根据聚类结果选定多个不同的麦克风。可选地,所述不同麦克风包括以下任意一种或多种动圈式麦克风、电容式麦克风、驻极体麦克风、硅麦克风;所述不同用户端设备包括以下任意一种或多种手机、录音笔。优选地,所述利用所述声纹特征序列训练生成对应所述用户的说话人模型包括对于每个信道采集到的所有声纹特征序列,训练得到对应该信道的声纹模型;对得到的对应不同信道的声纹模型进行合并,生成对应所述用户的说话人模型。优选地,对得到的对应不同信道的声纹模型进行合并包括 将对应不同信道的声纹模型加权平均。本专利技术实施例还提供一种说话人识别系统,包括采集单元,用于采集不同信道下的用户注册语音信号;特征提取单元,用于从所述采集单元采集的所述语音信号中分别提取声纹特征序列;模型训练单元,用于利用所述特征提取单元提取的声纹特征序列训练生成对应所述用户的说话人模型;识别单元,用于根据所述说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。优选地,所述采集单元,具体用于利用选定的多个不同的麦克风分别采集所述用户注册语音信号。优选地,所述系统还包括检测子系统,用于检测不同麦克风与不同用户端设备的信道相似度;选择单元,用于根据得到的信道相似度选定多个不同的麦克风。优选地,所述检测子系统包括音箱,用于播放用户录音;多个不同麦克风和多个不同用户设备,用于在所述音箱的同一波束面上同步采集所述音箱播放的用户录音;计算单元,用于对每个麦克风和用户端设备,计算该麦克风和该用户端设备在采集到的语音信号上的主观语音质量评估PESQ值,将PESQ值作为该麦克风和该用户端设备的信道相似度。优选地,所述选择单元包括映射子单元,用于利用线性函数D = S-PESQ将所述信道相似度映射到新的距离度量空间,其中,D表示映射距离,S为系统参数;聚类子单元,用于以各麦克风为聚类初始类中心,采用自下而上的聚类算法合并具有相似PESQ值的麦克风;选择子单元,用于根据所述聚类子单元的聚类结果选定多个不同的麦克风。可选地,所述不同麦克风包括以下任意一种或多种动圈式麦克风、电容式麦克风、驻极体麦克风、硅麦克风;所述不同用户端设备包括以下任意一种或多种手机、录音笔。优选地,所述模型训练单元包括训练子单元,用于对每个信道采集到的所有声纹特征序列,训练得到对应该信道的声纹模型;合并子单元,用于对所述训练子单元得到的对应不同信道的声纹模型进行合并, 生成对应所述用户的说话人模型。优选地,合并子单元,具体用于将对应不同信道的声纹模型加权平均,生成对应所述用户的说话人模型。本专利技术实施例提供的说话人识别方法及系统,针对检测环境和模型训练环境不同情况下,由于测试语音和训练语音之间信道不匹配导致系统性能下降的问题,通过采集不同信道下的用户注册语音信号,并利用这些不同信道下的注册语音信号训练生成对应所述用户的说话人模型,根据该说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。相比于传统基于加噪语音训练得到的说话人模型对信道敏感的问题,本专利技术实施例中得到的说话人模型由于是基于多个不同信道数据训练得到的,因此能更好地覆盖不同信道下的声纹特点,具有更高的鲁棒性和针对性。即使在模型训练数据与信道空问不匹配的情况下,也可以得到更鲁棒的模型估计,较好地改善信道差异导致的系统性能下降的问题。附图说明为了更清楚地说明本专利技术实施的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例说话人识别方法的流程图;图2是本专利技术实施例中背景模型参数训练过程的一种流程图;图3是本专利技术实施例中选择麦克风的一种实现流程图;图4是本专利技术实施例说话人识别系统的一种结构示意图;图5是本专利技术实施例说话人识别系统的另一种结构示意图。具体实施例方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创本文档来自技高网...
【技术保护点】
1.一种说话人识别方法,其特征在于,包括:采集不同信道下的用户注册语音信号;从采集的所述语音信号中分别提取声纹特征序列;利用所述声纹特征序列训练生成对应所述用户的说话人模型;根据所述说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。
【技术特征摘要】
【专利技术属性】
技术研发人员:柳林,魏思,胡国平,胡郁,何婷婷,吴晓如,刘庆峰,
申请(专利权)人:安徽科大讯飞信息科技股份有限公司,
类型:发明
国别省市:34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。