声学模型自适应方法及系统技术方案

技术编号：13275799 阅读：69 留言：0更新日期：2016-05-19 01:19

本发明专利技术涉及一种声学模型自适应方法及系统，该方法包括：在声学模型训练集上，对每段语音数据基于深度神经网络模型提取与说话人相关的身份认证矢量；在所述声学模型训练集上，对每段语音数据提取声学特征参数；将从所述语音数据中提取的所述身份认证矢量和所述声学特征参数拼接在一起，并作为深度神经网络模型的输入进行训练以形成声学识别模型；以及在语音识别阶段，依据所述声学识别模型进行语音识别以形成识别结果。本发明专利技术利用深度神经网络模型提取对应说话人的身份认证矢量，并利用身份认证矢量对深度神经网络模型进行重训练，使得深度神经网络模型具有较好的说话人自适应的特点，提高了语音识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音识别领域，特指一种声学模型自适应方法及系统。
技术介绍
现有被证明效果最好的语音识别系统中，声学模型大多是在成百上千小时数据集合上训练的深度网络模型。目前训练声学模型所用的声学特征是与说话人无关的滤波器组(filter-bank，fBank)特征，因此训练出来的声学模型也是与说话人无关的。利用深度网络模型来进行语音识别，由于该模型训练时缺少说话人相关的个性特征，而使得语音识别的准确率较低，且语音识别的适应性较差。
技术实现思路
本专利技术的目的在于克服现有技术的缺陷，提供一种声学模型自适应方法及系统，解决现有技术中的深度网络模型因缺少说话人相关的个性特征而使得语音识别的准确率较低和语音识别的适应性较差的问题。实现上述目的的技术方案是:本专利技术一种声学模型自适应方法，包括:在声学模型训练集上，对每段语音数据基于深度神经网络模型提取与说话人相关的身份认证矢量；在所述声学模型训练集上，对每段语音数据提取声学特征参数；以及将从所述语音数据中提取的所述身份认证矢量和所述声学特征参数拼接在一起，并作为深度神经网络模型的输入进行训练以形成声学识别模型。本专利技术利用深度神经网络模型提取对应说话人的身份认证矢量，并利用身份认证矢量对深度神经网络模型进行重训练，使得深度神经网络模型具有较好的说话人自适应的特点，提高了语音识别的准确率。本专利技术声学模型自适应方法的进一步改进在于，对每段语音数据基于深度神经网络模型提取与说话人相关的身份认证矢量，包括:对所述语音数据提取出39维麦尔倒谱系数，并根据计算公式提取所述身份认证矢量，所述计算公式为:M ...

【技术保护点】
一种声学模型自适应方法，其特征在于，包括：在声学模型训练集上，对每段语音数据基于深度神经网络模型提取与说话人相关的身份认证矢量；在所述声学模型训练集上，对每段语音数据提取声学特征参数；以及将从所述语音数据中提取的所述身份认证矢量和所述声学特征参数拼接在一起，并作为深度神经网络模型的输入进行训练以形成声学识别模型。

【技术特征摘要】

【专利技术属性】
技术研发人员：李轶杰，刘青松，许东星，
申请(专利权)人：上海语知义信息技术有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人