语音识别模型训练方法、说话人类型识别方法及装置制造方法及图纸

技术编号:13601585 阅读:39 留言:0更新日期:2016-08-27 17:18
本发明专利技术实施例提供一种语音识别模型训练方法、说话人类型识别方法及装置,获取训练语音并提取其声学特征,利用所述声学特征,训练获得用于提取说话人特征的特征识别器;利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征,作为所述用户类型对应的说话人特征;将不同用户类型对应的说话人特征以及所述特征提取器,作为说话人类型识别模型,利用说话人类型识别模型中所述特征识别器结合待识别语音的声音特征,提取所述待识别语音的说话人特征,并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配,将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。本发明专利技术实施实现了用户类型的识别。

【技术实现步骤摘要】

本专利技术实施例涉及语音识别
,尤其涉及一种用于说话人类型识别的语音识别模型训练方法、语音识别模型训练装置、说话人类型识别方法及装置。
技术介绍
随着信息类型的多元化发展,例如影视剧类型的多样化,不同用户对信息类型的需求也不一样,例如儿童、成年和老年对影视剧需求即不一样,成年男和成年女对影视剧需求也不一样。因此针对用户类型推送或者显示不同的信息内容,可以极大提高用户体验。而为了实现针对用户类型推送或者显示不同的信息内容,就需要对用户类型进行区分。目前的信息播放设备中,例如电视剧、电脑等中都配置有语音识别模块,但是语音识别模块通常只是用于提取语音信号的语言相关信息,识别关键词,并用于信息查找等方面。而并无法实现对用户类型的区分,因此如何提供一种说话人类型识别方案,实现对用户类型的识别,成为本领域技术人员主要解决的技术问题。
技术实现思路
本专利技术实施例提供一种语音识别模型训练方法、语音识别模型训练装置、说话人类型识别方法及装置,用以解决现有技术中无法实现用户类型识别的计算问题。本专利技术实施例提供一种语音识别模型训练方法,包括:获取训练语音并提取所述训练语音的声学特征,所述训练语音包括不同
用户类型的语音;利用所述声学特征,训练获得用于提取说话人特征的特征识别器;其中,不同用户类型对应的说话人特征不同;利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征,作为所述用户类型对应的说话人特征;将不同用户类型对应的说话人特征以及所述特征提取器,作为说话人类型识别模型,所述说话人类型识别模型用于利用所述特征识别器结合待识别语音的声音特征,提取所述待识别语音的说话人特征,并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配,将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。本专利技术实施例提供一种说话人类型识别方法,包括:获取待识别语音,并提取所述待识别语音的声学特征;利用说话人类型识别模型中的特征识别器以及所述声学特征,提取所述待识别语音的说话人特征;所述说话人类型识别模型包括特征识别器以及不同用户类型对应的说话人特征;所述特征识别器利用训练语音的声学特征训练获得;所述不同用户类型对应的说话人特征利用所述特征识别器从所述用户类型对应的目标语音中提取获得;分别计算所述待识别语音的说话人特征,与所述说话人类型识别模型中不同用户类型对应的说话人特征的匹配度;将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。本专利技术实施例提供一种语音识别模型训练装置,包括:第一提取模块,用于获取训练语音并提取所述训练语音的声学特征,所述训练语音包括不同用户类型的语音;训练模块,用于利用所述声学特征,训练获得用于提取说话人特征的特征识别器;其中,不同用户类型对应的说话人特征不同;第二提取模块,用于利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征,作为所述用户类型对应的说话人特征;模型生成模块,用于将不同用户类型对应的说话人特征以及所述特征提取器,作为说话人类型识别模型,所述说话人类型识别模型用于利用所述特征识别器结合待识别语音的声音特征,提取所述待识别语音的说话人特征,并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配,将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。本专利技术实施例提供一种说话人类型识别装置,包括:第三提取模块,用于获取待识别语音,并提取所述待识别语音的声学特征;第四提取模块,用于利用说话人类型识别模型中的特征识别器以及所述声学特征,提取所述待识别语音的说话人特征;所述说话人类型识别模型包括特征识别器以及不同用户类型对应的说话人特征;所述特征识别器利用训练语音的声学特征训练获得;所述不同用户类型对应的说话人特征利用所述特征识别器从所述不同用户类型对应的目标语音中提取获得;匹配度计算模块,用于分别计算所述待识别语音的说话人特征,与所述说话人类型识别模型中不同用户类型对应的说话人特征的匹配度;识别模块,用于将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。本专利技术实施例提供的语音识别模型训练方法、语音识别模型训练装置、说话人类型识别方法及装置,获取训练语音并提取所述训练语音的声学特征,所述训练语音包括不同用户类型的语音;利用所述声学特征,训练获得用于提取说话人特征的特征识别器;其中,不同用户类型对应的说话人特征不同,利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征,作为所述用户类型对应的说话人特征;将不同用户类型对应的说话人特征以
及所述特征提取器,作为说话人类型识别模型,从而在进行说话人类型识别时,利用所述说话人类型识别模型中的所述特征识别器结合待识别语音的声音特征,可以提取所述待识别语音的说话人特征,并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配,匹配度最高的说话人特征对应的用户类型即为所述待识别语音的用户类型,从而实现了用户类型的识别。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术语音识别模型训练方法一个实施例流程图;图2为本专利技术说话人类型识别方法一个实施例流程图;图3为本专利技术语音识别模型训练装置一个实施例结构示意图;图4为本专利技术说话人类型识别装置一个实施例结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的技术方案适用于语音识别场景中,用于区分不同用户类型,用户类型可以包括成年男、成年女、老人或者儿童,对用户类型的区分可以应用于不同的应用场景中,例如智能电视通过区分用户类型可以向不同用户类
型的用户展示不同的影视内容等。在本专利技术实施例中,为了实现不同用户类型的区分,首先进行模型训练,获取训练语音并提取所述训练语音的声学特征,所述训练语音包括不同用户类型的语音;利用所述声学特征,训练获得用于提取说话人特征的特征识别器;其中,不同用户类型对应的说话人特征不同,利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征,作为所述用户类型对应的说话人特征;将不同用户类型对应的说话人特征以及所述特征提取器,作为说话人类型识别模型,从而在进行说话人类型识别时,利用所述说话人类型识别模型中的所述特征识别器结合待识别语音的声音特征,可以提取所述待识别语音的说话人特征,并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配,匹配度最高的说话人特征对应的用户类型即为所述待识别语音的用户类型,从而实现了用户类型的识别。下面将结合附图对本专利技术技术方案进行详细描述。图1是本专利技术实施例提供的一种语音识别模型训练方法一本文档来自技高网
...

【技术保护点】
一种语音识别模型训练方法,其特征在于,包括:获取训练语音并提取所述训练语音的声学特征,所述训练语音包括不同用户类型的语音;利用所述声学特征,训练获得用于提取说话人特征的特征识别器;其中,不同用户类型对应的说话人特征不同;利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征,作为所述用户类型对应的说话人特征;将不同用户类型对应的说话人特征以及所述特征提取器,作为说话人类型识别模型,所述说话人类型识别模型用于利用所述特征识别器结合待识别语音的声音特征,提取所述待识别语音的说话人特征,并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配,将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。

【技术特征摘要】
1.一种语音识别模型训练方法,其特征在于,包括:获取训练语音并提取所述训练语音的声学特征,所述训练语音包括不同用户类型的语音;利用所述声学特征,训练获得用于提取说话人特征的特征识别器;其中,不同用户类型对应的说话人特征不同;利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征,作为所述用户类型对应的说话人特征;将不同用户类型对应的说话人特征以及所述特征提取器,作为说话人类型识别模型,所述说话人类型识别模型用于利用所述特征识别器结合待识别语音的声音特征,提取所述待识别语音的说话人特征,并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配,将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。2.根据权利要求1所述的方法,其特征在于,所述利用所述声学特征,训练获得用于提取说话人特征的特征识别器包括:利用所述声学特征,训练用于计算i-Vector特征的T矩阵,所述T矩阵为特征识别器,所述i-Vector特征为说话人特征。3.根据权利要求1所述的方法,其特征在于,利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征,作为所述用户类型对应的说话人特征包括:利用所述特征识别器从每一个用户类型的多个目标语音中分别提取说话人特征,并提取获得的多个说话人特征的平均值作为所述用户类型对应的说话人特征。4.根据权利要求1所述的方法,其特征在于,所述利用所述声学特征,训练获得用于提取说话人特征的特征识别器包括:利用所述声学特征,训练获得通用背景模型;利用所述通用背景模型,训练获得用于提取说话人特征的特征识别器。5.一种说话人类型识别方法,其特征在于,包括:获取待识别语音,并提取所述待识别语音的声学特征;利用说话人类型识别模型中的特征识别器以及所述声学特征,提取所述待识别语音的说话人特征;所述说话人类型识别模型包括特征识别器以及不同用户类型对应的说话人特征;所述特征识别器利用训练语音的声学特征训练获得;所述不同用户类型对应的说话人特征利用所述特征识别器从所述不同用户类型的目标语音中提取获得;分别计算所述待识别语音的说话人特征,与所述说话人类型识别模型中不同用户类型对应的说话人特征的匹配度;将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。6.根据权利要求5所述的方法,其特征在于,所述说话人特征为i-Vector特征;所述分别计所述算所述待识别语音的说话人特征,与所述说话人类型识别模型中不同用户类型对应的说话人特征的匹配度包括:分别计算所述待识别语音的i-Vector特征,与所述说话人类型识别模型中不同用户类型对应的i-Vector特征的距...

【专利技术属性】
技术研发人员:张俊博
申请(专利权)人:乐视控股北京有限公司乐视致新电子科技天津有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1