一种声纹识别方法和装置制造方法及图纸

技术编号:13975048 阅读:61 留言:0更新日期:2016-11-11 09:10
本发明专利技术实施例公开了一种声纹识别方法和装置,其中所述方法包括:获取验证用户朗读第一字符串所产生的验证语音信息;对所述验证语音信息进行语音识别得到所述验证语音信息中包含的分别与所述第一字符串中的多个字符对应的语音片段;提取各个字符对应的语音片段的声纹特征;根据所述各个字符对应的语音片段的声纹特征,结合预设的相应字符对应的通用背景模型训练得到验证语音信息中各个字符对应的特征向量;计算验证语音信息中各个字符对应的特征向量与预设的注册语音信息中相应字符对应的特征向量的相似度分数,若所述相似度分数达到预设验证门限,则将所述验证用户确定为所述注册语音信息对应的注册用户。采用本发明专利技术,可有效提高声纹识别准确率。

【技术实现步骤摘要】

本专利技术涉及声音识别
,尤其涉及一种声纹识别方法和装置
技术介绍
声纹识别作为一种生物信息识别的方法,包括用户注册和用户身份识别两个阶段。注册阶段将语音通过一系列处理映射为用户模型。在识别阶段对于一段身份未知的语音,与模型进行相似度的匹配,进而对未知语音的身份与注册语音的身份是否一致进行判断。现有的声纹建模方法通常是从文本无关的层面进行建模以实现对说话人身份特征的描述,但是文本无关的建模方式在用户朗读不同内容时,识别准确率较低,难以满足要求。
技术实现思路
有鉴于此,本专利技术实施例提供一种声纹识别方法和装置,可有效提高声纹识别准确率。为了解决上述技术问题,本专利技术实施例提供了一种声纹识别方法,所述方法包括:获取验证用户朗读第一字符串所产生的验证语音信息;对所述验证语音信息进行语音识别得到所述验证语音信息中包含的分别与所述第一字符串中的多个字符对应的语音片段;提取各个字符对应的语音片段的声纹特征;根据所述各个字符对应的语音片段的声纹特征,结合预设的相应字符对应的通用背景模型训练得到验证语音信息中各个字符对应的特征向量;计算验证语音信息中各个字符对应的特征向量与预设的注册语音信息中相应字符对应的特征向量的相似度分数,若所述相似度分数达到预设验证门限,则将所述验证用户确定为所述注册语音信息对应的注册用户。相应地,本专利技术实施例还提供了一种声纹识别装置,所述装置包括:语音获取模块,用于获取验证用户朗读第一字符串所产生的验证语音信息;语音片段识别模块,用于对所述验证语音信息进行语音识别得到所述验证语音信息中包含的分别与所述第一字符串中的多个字符对应的语音片段;声纹特征提取模块,用于提取验证语音信息中各个字符对应的语音片段的声纹特征;特征模型训练模块,用于根据所述各个字符对应的语音片段的声纹特征,结合预设的相应字符对应的通用背景模型训练得到验证语音信息中各个字符对应的特征向量;相似度判断模块,用于计算验证语音信息中各个字符对应的特征向量与预设的注册语音信息中相应字符对应的特征向量的相似度分数;用户识别模块,用于若所述相似度分数达到预设验证门限,则将所述验证用户确定为所述注册语音信息对应的注册用户。本实施例通过获取验证用户的验证语音信息中各个字符对应的语音片段的声纹特征,结合预设的相应字符的UBM训练得到验证语音信息中各个字符对应的特征向量,并通过将验证语音信息中各个字符对应的特征向量与注册语音信息中相应字符的特征向量进行相似度比较,从而确定验证用户的的用户身份,该方式用以比较的用户特征向量与具体字符对应,充分考虑到用户朗读不同字符时的声纹特征,从而可有效提高声纹识别准确率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例中的声纹识别方法的阶段概述示意图;图2是本专利技术实施例中的一种声纹识别方法的流程示意图;图3是本专利技术实施例中从语音信息中识别得到多个字符对应的语音片段的原理示意图;图4是本专利技术实施例中从语音信息中获取各个字符对应的特征向量的原理示意图;图5是本专利技术实施例中注册用户的声纹注册流程示意图;图6是本专利技术另一实施例中的声纹识别方法的流程示意图;图7是本专利技术实施例中的一种声纹识别装置的结构示意图;图8是本专利技术实施例中的语音片段识别模块的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供了一种声纹识别方法及装置。该声纹识别方法及装置可应用于所有需要识别未知用户身份的场景或设备中。用于进行声纹识别的字符串中的字符可以是阿拉伯数字、英文字母或其他语言字符等。为了简化描述,本专利技术实施例中的字符以阿拉伯数字为例进行举例说明。本专利技术实施例中的声纹识别方法可以分为两个阶段,如图1所示:1)注册用户的声纹注册阶段在声纹注册阶段,注册用户可以朗读一个注册字符串(即后文出现的第二字符串),声纹识别装置采集该注册用户在朗读该注册字符串时的注册语音信息,然后对注册语音信息进行声音识别得到所述注册语音信息中包含的分别与所述注册字符串中的多个字符对应的语音片段,进而对各个字符对应的语音片段进行声纹特征提取和声纹模型训练,包括根据所述各个字符对应的语音片段的声纹特征,结合预设的相应字符对应的通用背景模型(Universal Background Model,UBM,即GMM-UBM)训练得到注册语音信息中各个字符对应的特征向量,然后声纹识别装置可以分别为不同的注册用户将其在声纹注册阶段朗读的注册语音信息中的多个字符对应的特征向量保存在声纹识别装置的模型库中。比如,注册字符串是数字字符串0185851,包含了四种数字“0”、“1”、“5”、“8”,则声纹识别装置根据注册语音信息中各个字符对应的语音片段进行声纹特征提取和声纹模型训练,得到“0”、“1”、“5”、“8”对应的语音片段的声纹特征,进而结合预设的相应字符对应的UBM训练得到注册语音信息中各个字符对应的特征向量,包括与数字“0”对应的特征向量、与数字“1”对应的特征向量、与数字“5”对应的特征向量以及与数字“8”对应的特征向量。2)验证用户的身份识别阶段在身份识别阶段,验证用户即未知身份的用户朗读一个验证字符串(即后文出现的第一字符串,所述第二字符串与所述第一字符串拥有至少一个相同的字符),声纹识别装置采集该验证用户在朗读该验证字符串时的验证语音信息,然后对验证语音信息进行声音识别得到所述验证语音信息中包含的分别与所述验证字符串中的多个字符对应的语音片段,进而对各个字符对应的语音片段进行声纹特征提取和声纹模型训练,包括根据所述各个字符对应的语音片段的声纹特征,结合预设的相应字符对应的UBM训练得到验证语音信息中各个字符对应的特征向量,最后计算验证语音信息中各个字符对应的特征向量与预设的注册语音信息中相应字符对应的特征向量的相似度分数,若所述相似度分数达到预设验证门限,则将所述验证用户确定为所述注册语音信息对应的注册用户。比如,验证字符串为数字字符串85851510,则声纹识别装置根据验证用户朗读时产生的验证语音信息中各个字符对应的语音片段进行声纹特征提取和声纹模型训练,得到“0”、“1”、“5”、“8”对应的GMM,进而结合预设的相应字符对应的UBM可以计算得到验证用户的验证语音信息的特征向量,包括与数字“0”对应的特征向量、与数字“1”对应的特征向量、与数字“5”对应的特征向量以及与数字“8”对应的特征向量,进而分别计算验证语音信息中的“0”、“1”、“5”、“8”对应的特征向量分别与注册语音信息中的“0”、“1”、“5”、“8”对应的特征向量之间的相似度分数,若所述相似度分数达到预设验证门限,则将所述验证用户确定为所述注册语音信息对应的注册用户。需要指出的是,上述注册用户的声纹注册阶段和验证用本文档来自技高网...

【技术保护点】
一种声纹识别方法,其特征在于,所述方法包括:获取验证用户朗读第一字符串所产生的验证语音信息;对所述验证语音信息进行语音识别得到所述验证语音信息中包含的分别与所述第一字符串中的多个字符对应的语音片段;提取各个字符对应的语音片段的声纹特征;根据所述各个字符对应的语音片段的声纹特征,结合预设的相应字符对应的通用背景模型训练得到验证语音信息中各个字符对应的特征向量;计算验证语音信息中各个字符对应的特征向量与预设的注册语音信息中相应字符对应的特征向量的相似度分数,若所述相似度分数达到预设验证门限,则将所述验证用户确定为所述注册语音信息对应的注册用户。

【技术特征摘要】
1.一种声纹识别方法,其特征在于,所述方法包括:获取验证用户朗读第一字符串所产生的验证语音信息;对所述验证语音信息进行语音识别得到所述验证语音信息中包含的分别与所述第一字符串中的多个字符对应的语音片段;提取各个字符对应的语音片段的声纹特征;根据所述各个字符对应的语音片段的声纹特征,结合预设的相应字符对应的通用背景模型训练得到验证语音信息中各个字符对应的特征向量;计算验证语音信息中各个字符对应的特征向量与预设的注册语音信息中相应字符对应的特征向量的相似度分数,若所述相似度分数达到预设验证门限,则将所述验证用户确定为所述注册语音信息对应的注册用户。2.如权利要求1所述的声纹识别方法,其特征在于,所述获取验证用户朗读第一字符串所产生的验证语音信息之前还包括:获取注册用户朗读第二字符串所产生的注册语音信息,所述第二字符串与所述第一字符串拥有至少一个相同的字符;对所述注册语音信息进行语音识别得到所述注册语音信息中包含的分别与所述第二字符串中的多个字符对应的语音片段;提取注册语音信息中各个字符对应的语音片段的声纹特征;根据注册语音信息中各个字符对应的语音片段的声纹特征,结合预设的相应字符对应的通用背景模型训练得到注册语音信息中各个字符对应的特征向量。3.如权利要求1所述的声纹识别方法,其特征在于,所述根据所述各个字符对应的语音片段的声纹特征,结合预设的相应字符对应的通用背景模型训练得到验证语音信息中各个字符对应的特征向量包括:将验证语音信息中各个字符对应的语音片段的声纹特征作为训练样本数据,采用最大后验概率算法对预设的相应字符对应的通用背景模型的均值超向量进行调整,从而估计得到验证语音信息中各个字符对应的特征向量。4.如权利要求3所述的声纹识别方法,其特征在于,所述将验证语音信息中各个字符对应的语音片段的声纹特征作为训练样本数据,采用最大后验概率算法对预设的相应字符对应的通用背景模型的均值超向量进行调整,从而估计得到验证语音信息中各个字符对应的特征向量包括:将验证语音信息中各个字符对应的语音片段的声纹特征作为训练样本数据,采用最大后验概率算法对预设的相应字符对应的通用背景模型的均值超向量进行调整,并结合预设的超向量子空间矩阵从而得到验证语音信息中各个字符对应的特征向量。5.如权利要求4所述的声纹识别方法,其特征在于,所述将验证语音信息中各个字符对应的语音片段的声纹特征作为训练样本数据,采用最大后验概率算法对预设的相应字符对应的通用背景模型的均值超向量进行调整,并结合预设的超向量子空间矩阵从而得到验证语音信息中各个字符对应的特征向量包括:将验证语音信息中各个字符对应的语音片段的声纹特征作为训练样本数据,采用下式对预设的相应字符对应的通用背景模型的均值超向量进行调整,使得调整后的相应字符对应的通用背景模型的后验概率最大:M=m+Tω,其中M代表调整后的某个字符的通用背景模型的均值超向量,m代表调整前的相应字符的通用背景模型的均值超向量,T为预设的超向量子空间矩阵,ω即为验证语音信息中相应字符对应的特征向量。6.如权利要求4所述的声纹识别方法,其特征在于,所述超向量子空间矩阵为根据所述通用背景模型中各个高斯模块的权重之间的相关性确定得到的。7.如权利要求1所述的声纹识别方法,其特征在于,所述计算验证语音信息中各个字符对应的特征向量与预设的注册语音信息中相应字符对应的特征向量的相似度分数包括:计算验证语音信息中各个字符对应的特征向量与预设的注册语音信息中相应字符对应的特征向量之间的余弦距离值作为所述相似度分数。8.如权利要求1所述的声纹识别方法,其特征在于,所述对所述验证语音信息进行语音识别得到所述验证语音信息中包含的分别与所述第一字符串中的多个字符对应的语音片段包括:识别所述验证语音信息中的有效语音片段和无效语音片段;对所述有效语音片段进行语音识别得到分别与所述第一字符串中的多个字符对应的语音片段。9.如权利要求1所述的声纹识别方法,其特征在于,所述将所述验证用户确定为所述注册语音信息对应的注册用户之前还包括:确定所述验证语音信息中的...

【专利技术属性】
技术研发人员:李为钱柄桦金星明李科吴富章吴永坚黄飞跃
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1