System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及语音识别,尤其涉及一种语音识别模型的生成方法和装置。
技术介绍
1、语音识别是指将语音转换为文字的技术,随着深度学习技术的发展,已在智能终端(比如,手机、音箱和电视等设备)上得到广泛应用。常见的语音识别系统通常为基于深度学习的端到端语音识别模型,比如,ctc、las、rnn-t等等。
2、现有的端到端的语音识别模型通常为有监督训练,训练过程中需要使用原始音频和对应的文本标签,文本标签需要专业的标注人员人工标注,导致训练成本过高。因此,为了降低训练成本,常常会引入无监督模型作为有监督训练的初始化或者特征提取工具,以提升识别准备性。
3、将无监督模型引入有监督模型时,作为初始化工具,无监督模型的模型结构与有监督模型的模型结构相同,有监督模型直接将无监督模型的模型参数作为初始化参数,然而,受限于有监督模型的标签数据的数量级(只有几万甚至几千)过小,远小于无监督训练的数量级,导致有监督模型训练时会遗忘无监督模型已经学习到的很多特征,训练的准确性和稳定性大大降低;作为特征提取工具,为了获得目标特征,需要对无监督模型进行微调或者增加新的参数,如此,反而使得模型训练量激增,需要极多的训练资源,消耗的训练成本较高。
技术实现思路
1、有鉴于此,本公开实施例提供一种语音识别模型的生成方法和装置,能够解决现有的语音识别模型的训练稳定性和识别准确性较差,需要消耗较高的训练资源,导致训练成本较高的问题。
2、为实现上述目的,根据本公开的一方面,提供了一种语音识
3、获取多个样本语音信号;
4、提取各个所述样本语音信号中的第一样本语音特征和第二样本语音特征;
5、分别将所述第一样本语音特征输入无监督模型、将所述样本第二语音特征输入帧级别对齐模型,得到所述样本语音信号的第一输出类别和第二输出类别,利用所述第一输出类别和所述第二输出类别构建发音词典;
6、组合所述无监督模型、所述发音词典和语言模型,得到所述语音识别模型,使得解码器利用所述语音识别模型识别待识别语音。
7、根据本公开的另一方面,提供了一种语音识别模型的生成装置,包括:
8、获取模块,用于获取多个样本语音信号;
9、提取模块,用于提取各个所述样本语音信号中的第一样本语音特征和第二样本语音特征;
10、构建模块,用于分别将所述第一样本语音特征输入无监督模型、将所述样本第二语音特征输入帧级别对齐模型,得到所述样本语音信号的第一输出类别和第二输出类别,利用所述第一输出类别和所述第二输出类别构建发音词典;生成模块,用于组合所述无监督模型、所述发音词典和语言模型,得到所述语音识别模型,使得解码器利用所述语音识别模型识别待识别语音。
11、根据本公开的再一方面,提供了一种电子设备,包括:
12、处理器;以及
13、存储程序的存储器,
14、其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行所述语音识别模型的生成方法。
15、根据本公开实施例的还一个方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行所述语音识别模型的生成方法。
16、本申请实施例中提供的一个或多个技术方案,通过样本语音信号中提取样本语音特征,分别输入训练好的无监督模型和帧级别对齐模型,得到样本语音信号的第一输出类别和第二输出类别以构建发音词典;再组合训练好的无监督模型、发音词典和语言模型,得到语音识别模型,可以实现既无需使用无监督模型的模型参数,也无需海量的标签数据,能够兼顾无监督模型的泛化能力和鲁棒性、以及有监督模型的识别准确性,同时利用语言模型的上下文感知能力获取准确的识别结果,在提高语音识别模型的训练稳定性和识别准确度的同时,提高识别效率,缩减训练资源的消耗,进而降低训练成本的技术效果。
本文档来自技高网...【技术保护点】
1.一种语音识别模型的生成方法,其特征在于,包括:
2.如权利要求1所述的语音识别模型的生成方法,其特征在于,利用所述第一输出类别和所述第二输出类别构建发音词典,包括:
3.如权利要求1所述的语音识别模型的生成方法,其特征在于,利用所述第一输出类别和所述第二输出类别构建发音词典,包括:
4.如权利要求2或3所述的语音识别模型的生成方法,其特征在于,所述第一样本语音特征在提取时的第一单位帧与所述第二样本语音特征在提取时的第二单位帧为倍数关系。
5.如权利要求1所述的语音识别模型的生成方法,其特征在于,还包括:
6.如权利要求5所述的语音识别模型的生成方法,其特征在于,所述将所述待识别语音输入所述语音识别模型,根据所述语音识别模型的输出,确定所述待识别语音对应的文本内容,包括:
7.一种语音识别模型的生成装置,其特征在于,包括:
8.一种电子设备,包括:
9.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的语音识别模型
...【技术特征摘要】
1.一种语音识别模型的生成方法,其特征在于,包括:
2.如权利要求1所述的语音识别模型的生成方法,其特征在于,利用所述第一输出类别和所述第二输出类别构建发音词典,包括:
3.如权利要求1所述的语音识别模型的生成方法,其特征在于,利用所述第一输出类别和所述第二输出类别构建发音词典,包括:
4.如权利要求2或3所述的语音识别模型的生成方法,其特征在于,所述第一样本语音特征在提取时的第一单位帧与所述第二样本语音特征在提取时的第二单位帧为倍数关系。
5.如权利...
【专利技术属性】
技术研发人员:单长浩,孙思宁,杨青,
申请(专利权)人:度小满科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。