语音识别模型训练方法、说话人类型识别方法及装置制造方法及图纸

技术编号：13601585 阅读：39 留言：0更新日期：2016-08-27 17:18

本发明专利技术实施例提供一种语音识别模型训练方法、说话人类型识别方法及装置，获取训练语音并提取其声学特征，利用所述声学特征，训练获得用于提取说话人特征的特征识别器；利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征，作为所述用户类型对应的说话人特征；将不同用户类型对应的说话人特征以及所述特征提取器，作为说话人类型识别模型，利用说话人类型识别模型中所述特征识别器结合待识别语音的声音特征，提取所述待识别语音的说话人特征，并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配，将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。本发明专利技术实施实现了用户类型的识别。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例涉及语音识别
，尤其涉及一种用于说话人类型识别的语音识别模型训练方法、语音识别模型训练装置、说话人类型识别方法及装置。
技术介绍
随着信息类型的多元化发展，例如影视剧类型的多样化，不同用户对信息类型的需求也不一样，例如儿童、成年和老年对影视剧需求即不一样，成年男和成年女对影视剧需求也不一样。因此针对用户类型推送或者显示不同的信息内容，可以极大提高用户体验。而为了实现针对用户类型推送或者显示不同的信息内容，就需要对用户类型进行区分。目前的信息播放设备中，例如电视剧、电脑等中都配置有语音识别模块，但是语音识别模块通常只是用于提取语音信号的语言相关信息，识别关键词，并用于信息查找等方面。而并无法实现对用户类型的区分，因此如何提供一种说话人类型识别方案，实现对用户类型的识别，成为本领域技术人员主要解决的技术问题。
技术实现思路
本专利技术实施例提供一种语音识别模型训练方法、语音识别模型训练装置、说话人类型识别方法及装置，用以解决现有技术中无法实现用户类型识别的计算问题。本专利技术实施例提供一种语音识别模型训练方法，包括：获取训练语音并提取所述训练语音的声学特征，所述训练语音包括不同
用户类型的语音；利用所述声学特征，训练获得用于提取说话人特征的特征识别器；其中，不同用户类型对应的说话人特征不同；利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征，作为所述用户类型对应的说话人特征；将不同用户类型对应的说话人特征以及所述特征提取器，作为说话人类型识别模型，所述说话人类型识别模型用于利用所述特征识别器结合待识别语音的声音...

【技术保护点】
一种语音识别模型训练方法，其特征在于，包括：获取训练语音并提取所述训练语音的声学特征，所述训练语音包括不同用户类型的语音；利用所述声学特征，训练获得用于提取说话人特征的特征识别器；其中，不同用户类型对应的说话人特征不同；利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征，作为所述用户类型对应的说话人特征；将不同用户类型对应的说话人特征以及所述特征提取器，作为说话人类型识别模型，所述说话人类型识别模型用于利用所述特征识别器结合待识别语音的声音特征，提取所述待识别语音的说话人特征，并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配，将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。

【技术特征摘要】
1.一种语音识别模型训练方法，其特征在于，包括：获取训练语音并提取所述训练语音的声学特征，所述训练语音包括不同用户类型的语音；利用所述声学特征，训练获得用于提取说话人特征的特征识别器；其中，不同用户类型对应的说话人特征不同；利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征，作为所述用户类型对应的说话人特征；将不同用户类型对应的说话人特征以及所述特征提取器，作为说话人类型识别模型，所述说话人类型识别模型用于利用所述特征识别器结合待识别语音的声音特征，提取所述待识别语音的说话人特征，并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配，将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。2.根据权利要求1所述的方法，其特征在于，所述利用所述声学特征，训练获得用于提取说话人特征的特征识别器包括：利用所述声学特征，训练用于计算i-Vector特征的T矩阵，所述T矩阵为特征识别器，所述i-Vector特征为说话人特征。3.根据权利要求1所述的方法，其特征在于，利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征，作为所述用户类型对应的说话人特征包括：利用所述特征识别器从每一个用户类型的多个目标语音中分别提取说话人特征，并提取获得的多个说话人特征的平均值作为所述用户类型对应的说话人特征。4.根据权利要求1所述的方法，其特征在于，所述利用所述声学特征，训练获得用于提取说话人特征的特征识别器包括：利用所述声学特征，训练获得通用背景模型；利用所述通用背景模型，训练获得用于提取说话人特征的特征识别器。5.一种说话人类型识别方法，其特征在于，包括：获取待识别语音，并提取所述待识别语音的声学特征；利用说话人类型识别模型中的特征识别器以及所述声学特征，提取所述待识别语音的说话人特征；所述说话人类型识别模型包括特征识别器以及不同用户类型对应的说话人特征；所述特征识别器利用训练语音的声学特征训练获得；所述不同用户类型对应的说话人特征利用所述特征识别器从所述不同用户类型的目标语音中提取获得；分别计算所述待识别语音的说话人特征，与所述说话人类型识别模型中不同用户类型对应的说话人特征的匹配度；将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。6.根据权利要求5所述的方法，其特征在于，所述说话人特征为i-Vector特征；所述分别计所述算所述待识别语音的说话人特征，与所述说话人类型识别模型中不同用户类型对应的说话人特征的匹配度包括：分别计算所述待识别语音的i-Vector特征，与所述说话人类型识别模型中不同用户类型对应的i-Vector特征的距...

【专利技术属性】
技术研发人员：张俊博，
申请(专利权)人：乐视控股北京有限公司，乐视致新电子科技天津有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人