【技术实现步骤摘要】
本专利技术涉及声音识别
,尤其涉及一种声纹识别方法和装置。
技术介绍
声纹识别作为一种生物信息识别的方法,包括用户注册和用户身份识别两个阶段。注册阶段将语音通过一系列处理映射为用户模型。在识别阶段对于一段身份未知的语音,与模型进行相似度的匹配,进而对未知语音的身份与注册语音的身份是否一致进行判断。现有的声纹建模方法通常是从文本无关的层面进行建模以实现对说话人身份特征的描述,但是文本无关的建模方式在用户朗读不同内容时,识别准确率较低,难以满足要求。
技术实现思路
有鉴于此,本专利技术实施例提供一种声纹识别方法和装置,可有效提高声纹识别准确率。为了解决上述技术问题,本专利技术实施例提供了一种声纹识别方法,所述方法包括:获取验证用户朗读第一字符串所产生的验证语音信息;对所述验证语音信息进行语音识别得到所述验证语音信息中包含的分别与所述第一字符串中的多个字符对应的语音片段;提取各个字符对应的语音片段的声纹特征;根据所述各个字符对应的语音片段的声纹特征,结合预设的相应字符对应的通用背景模型训练得到验证语音信息中各个字符对应的特征向量;计算验证语音信息中各个字符对应的特征向量与预设的注册语音信息中相应字符对应的特征向量的相似度分数,若所述相似度分数达到预设验证门限,则将所述验证用户确定为所述注册语音信息对应的注册用户。相应地,本专利技术实施例还提供了一种声纹识别装置,所述装置包括:语音获取模块,用于获取验证用户朗读第一字符串所产生的验证语音信息;语音片段识别模块,用于对所述验证语音信息进行语音识别得到所述验证语音信息中包含的分别与所述第一字符串中的多个字符对应的语 ...
【技术保护点】
一种声纹识别方法,其特征在于,所述方法包括:获取验证用户朗读第一字符串所产生的验证语音信息;对所述验证语音信息进行语音识别得到所述验证语音信息中包含的分别与所述第一字符串中的多个字符对应的语音片段;提取各个字符对应的语音片段的声纹特征;根据所述各个字符对应的语音片段的声纹特征,结合预设的相应字符对应的通用背景模型训练得到验证语音信息中各个字符对应的特征向量;计算验证语音信息中各个字符对应的特征向量与预设的注册语音信息中相应字符对应的特征向量的相似度分数,若所述相似度分数达到预设验证门限,则将所述验证用户确定为所述注册语音信息对应的注册用户。
【技术特征摘要】
1.一种声纹识别方法,其特征在于,所述方法包括:获取验证用户朗读第一字符串所产生的验证语音信息;对所述验证语音信息进行语音识别得到所述验证语音信息中包含的分别与所述第一字符串中的多个字符对应的语音片段;提取各个字符对应的语音片段的声纹特征;根据所述各个字符对应的语音片段的声纹特征,结合预设的相应字符对应的通用背景模型训练得到验证语音信息中各个字符对应的特征向量;计算验证语音信息中各个字符对应的特征向量与预设的注册语音信息中相应字符对应的特征向量的相似度分数,若所述相似度分数达到预设验证门限,则将所述验证用户确定为所述注册语音信息对应的注册用户。2.如权利要求1所述的声纹识别方法,其特征在于,所述获取验证用户朗读第一字符串所产生的验证语音信息之前还包括:获取注册用户朗读第二字符串所产生的注册语音信息,所述第二字符串与所述第一字符串拥有至少一个相同的字符;对所述注册语音信息进行语音识别得到所述注册语音信息中包含的分别与所述第二字符串中的多个字符对应的语音片段;提取注册语音信息中各个字符对应的语音片段的声纹特征;根据注册语音信息中各个字符对应的语音片段的声纹特征,结合预设的相应字符对应的通用背景模型训练得到注册语音信息中各个字符对应的特征向量。3.如权利要求1所述的声纹识别方法,其特征在于,所述根据所述各个字符对应的语音片段的声纹特征,结合预设的相应字符对应的通用背景模型训练得到验证语音信息中各个字符对应的特征向量包括:将验证语音信息中各个字符对应的语音片段的声纹特征作为训练样本数据,采用最大后验概率算法对预设的相应字符对应的通用背景模型的均值超向量进行调整,从而估计得到验证语音信息中各个字符对应的特征向量。4.如权利要求3所述的声纹识别方法,其特征在于,所述将验证语音信息中各个字符对应的语音片段的声纹特征作为训练样本数据,采用最大后验概率算法对预设的相应字符对应的通用背景模型的均值超向量进行调整,从而估计得到验证语音信息中各个字符对应的特征向量包括:将验证语音信息中各个字符对应的语音片段的声纹特征作为训练样本数据,采用最大后验概率算法对预设的相应字符对应的通用背景模型的均值超向量进行调整,并结合预设的超向量子空间矩阵从而得到验证语音信息中各个字符对应的特征向量。5.如权利要求4所述的声纹识别方法,其特征在于,所述将验证语音信息中各个字符对应的语音片段的声纹特征作为训练样本数据,采用最大后验概率算法对预设的相应字符对应的通用背景模型的均值超向量进行调整,并结合预设的超向量子空间矩阵从而得到验证语音信息中各个字符对应的特征向量包括:将验证语音信息中各个字符对应的语音片段的声纹特征作为训练样本数据,采用下式对预设的相应字符对应的通用背景模型的均值超向量进行调整,使得调整后的相应字符对应的通用背景模型的后验概率最大:M=m+Tω,其中M代表调整后的某个字符的通用背景模型的均值超向量,m代表调整前的相应字符的通用背景模型的均值超向量,T为预设的超向量子空间矩阵,ω即为验证语音信息中相应字符对应的特征向量。6.如权利要求4所述的声纹识别方法,其特征在于,所述超向量子空间矩阵为根据所述通用背景模型中各个高斯模块的权重之间的相关性确定得到的。7.如权利要求1所述的声纹识别方法,其特征在于,所述计算验证语音信息中各个字符对应的特征向量与预设的注册语音信息中相应字符对应的特征向量的相似度分数包括:计算验证语音信息中各个字符对应的特征向量与预设的注册语音信息中相应字符对应的特征向量之间的余弦距离值作为所述相似度分数。8.如权利要求1所述的声纹识别方法,其特征在于,所述对所述验证语音信息进行语音识别得到所述验证语音信息中包含的分别与所述第一字符串中的多个字符对应的语音片段包括:识别所述验证语音信息中的有效语音片段和无效语音片段;对所述有效语音片段进行语音识别得到分别与所述第一字符串中的多个字符对应的语音片段。9.如权利要求1所述的声纹识别方法,其特征在于,所述将所述验证用户确定为所述注册语音信息对应的注册用户之前还包括:确定所述验证语音信息中的...
【专利技术属性】
技术研发人员:李为,钱柄桦,金星明,李科,吴富章,吴永坚,黄飞跃,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。