语音识别的建模方法、装置及设备制造方法及图纸

技术编号:21365279 阅读:23 留言:0更新日期:2019-06-15 10:10
本发明专利技术提出一种语音识别的建模方法、装置及设备,其中,方法包括:确定N类标签;根据普通话的语音数据训练和N类标签构建语音识别模型;根据语音识别模型获取P种方言的语音数据的识别文本;根据识别文本和标注的参考文本确定错误率,对于P种方言中每一种方言,根据每个字的第一错误率和普通话中每个字的第二错误率确定每个字的声学特性差异值,根据差异值大于预设阈值的字对应的M类标签新生成M类目标标签;根据普通话和P种方言的语音数据训练声学模型,声学模型的输出为N类标签和P种方言中每一种方言对应的M类目标标签。由此,实现了普通话和方言混合建模,在保证识别准确性的同时,使同一个模型既支持普通话,又能支持多种方言。

Modeling Method, Device and Equipment of Speech Recognition

The invention provides a speech recognition modeling method, device and equipment, which includes: determining N-type labels; constructing speech recognition model according to speech data training of Putonghua and N-type labels; acquiring recognition text of P-type dialect speech data based on speech recognition model; determining error rate according to reference text of recognition text and annotation, and for each P-type dialect. In dialects, according to the first error rate of each word and the second error rate of each word in Putonghua, the difference value of acoustic characteristics of each word is determined. According to the M-type tags corresponding to the words whose difference value is greater than the preset threshold value, the M-type target tags are generated. According to the speech data of Putonghua and P-type dialects, the acoustic model is trained, and the output of the acoustic model is N-type tags corresponding to each dialect in P-type dialects. Class M target tags. Thus, the mixed model of Mandarin and dialect is realized. While ensuring the accuracy of recognition, the same model can support both Mandarin and multiple dialects.

【技术实现步骤摘要】
语音识别的建模方法、装置及设备
本专利技术涉及语音识别
,尤其涉及一种语音识别的建模方法、装置及设备。
技术介绍
随着语音识别技术的发展,语音识别的性能已满足实用,例如手机上的各种输入法都带有语音交互功能。而在实际应用中,除了普通话场景的语音识别外,还存在方言场景的语音识别。目前已有许多支持方言语音识别的语音交互产品,比如手机输入法上语音识别可选项,用户可以根据需要选择对应的方言,再比如一些针对特定方言定制的智能电视、智能冰箱等。相关技术中,通常采用普通话识别模型对普通话进行语音识别,采用相应的方言识别模型对方言进行语音识别,而在用户在切换语言时,需要来回选择相应的语音识别模型,操作繁琐。并且,随着要支持的方言越来越多,工作量与维护成本较高。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种语音识别的建模方法,实现了普通话和方言混合建模,在保证识别准确性的同时,使得同一个模型既支持普通话,又能支持多种方言,无需在多个模型之间切换,简化了用户操作,并且降低了维护成本。本专利技术的第二个目的在于提出一种语音识别的建模装置。本专利技术的第三个目的在于提出一种计算机设备。本专利技术的第四个目的在于提出一种计算机可读存储介质。本专利技术第一方面实施例提出了一种语音识别的建模方法,包括:根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理,获取每帧第一语音数据对应的标签,统计输出的标签并对相同类别的标签进行去重,确定N类标签,其中,N为正整数,P为正整数;根据普通话语音样本数据训练神经网络,并根据所述神经网络构建语音识别模型,其中,所述神经网络的输出为所述N类标签;将所述P种方言的第二语音数据分别输入到所述语音识别模型中进行处理,获取方言的第二语音数据的识别文本;根据所述识别文本和标注的参考文本,对于所述P种方言中每一种方言确定每个字的第一错误率,根据所述每个字的第一错误率和普通话中每个字的第二错误率确定每个字的声学特性差异值,根据所述差异值大于预设阈值的字对应的M类标签新生成M类目标标签,其中,M为大于等于零的整数,所述第二错误率是根据所述语音识别模型对普通话的第二语音数据的处理结果得到的;根据普通话的第三语音数据和所述P种方言的第三语音数据训练声学模型,其中,所述声学模型的输出为所述N类标签和所述P种方言中每一种方言对应的所述M类目标标签。本专利技术第二方面实施例提出了一种语音识别的建模装置,包括:对齐模块,用于根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理,获取每帧第一语音数据对应的标签,统计输出的标签并对相同类别的标签进行去重,确定N类标签,其中,N为正整数,P为正整数;第一训练模块,用于根据普通话语音样本数据训练神经网络,并根据所述神经网络构建语音识别模型,其中,所述神经网络的输出为所述N类标签;处理模块,用于将所述P种方言的第二语音数据分别输入到所述语音识别模型中进行处理,获取方言的第二语音数据的识别文本;生成模块,用于根据所述识别文本和标注的参考文本,对于所述P种方言中每一种方言确定每个字的第一错误率,根据所述每个字的第一错误率和普通话中每个字的第二错误率确定每个字的声学特性差异值,根据所述差异值大于预设阈值的字对应的M类标签新生成M类目标标签,其中,M为大于等于零的整数,所述第二错误率是根据所述语音识别模型对普通话的第二语音数据的处理结果得到的;第二训练模块,用于根据普通话的第三语音数据和所述P种方言的第三语音数据训练声学模型,其中,所述声学模型的输出为所述N类标签和所述P种方言中每一种方言对应的所述M类目标标签。本专利技术第三方面实施例提出了一种计算机设备,包括处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的语音识别的建模方法。本专利技术第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所述的语音识别的建模方法。本专利技术实施例提供的技术方案可以包括以下有益效果:根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理,获取每帧第一语音数据对应的标签,统计输出的标签并对相同类别的标签进行去重,确定N类标签。进而,根据普通话的第二语音数据训练输出为N类标签的神经网络,并根据神经网络构建语音识别模型。进一步将P种方言的第二语音数据分别输入到语音识别模型中进行处理,获取方言的第二语音数据的识别文本。进一步根据识别文本和标注的参考文本,对于P种方言中每一种方言确定每个字的第一错误率,根据每个字的第一错误率和普通话中每个字的第二错误率确定每个字的声学特性差异值,根据差异值大于预设阈值的字对应的M类标签新生成M类目标标签。进一步根据普通话的第三语音数据和P种方言的第三语音数据训练声学模型,其中,声学模型的输出为N类标签和P种方言中每一种方言对应的M类目标标签。由此,对于每种方言,基于普通话训练的语音识别模型对方言和普通话识别结果中各文字的错误率确定文字的声学特性差异,并根据差异生成相应的目标标签,并根据已有标签与新生成的目标标签生成声学模型,使得该声学模型可以识别普通话语音与方言语音,实现了基于文字识别的错误率确定建模单元,从而实现了普通话和方言混合建模,在保证识别准确性的同时,使得同一个模型既支持普通话,又能支持多种方言,无需在多个模型之间切换,简化了用户操作,并且降低了维护成本。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明图1为本专利技术实施例所提供的一种语音识别的建模方法的流程示意图;图2为本专利技术实施例所提供的一种确定第一错误率的流程示意图;图3为本专利技术实施例所提供的一种声学模型的示意图;图4为本专利技术实施例所提供的一种语音识别的建模装置的结构示意图;图5为本专利技术实施例所提供的另一种语音识别的建模装置的结构示意图;图6示出了适于用来实现本专利技术实施例的示例性计算机设备的框图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参考附图描述本专利技术实施例的语音识别的建模方法、装置及设备。图1为本专利技术实施例所提供的一种语音识别的建模方法的流程示意图,如图1所示,该方法包括:步骤101,根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理,获取每帧第一语音数据对应的标签,统计输出的标签并对相同类别的标签进行去重,确定N类标签,其中,N为正整数,P为正整数。相关技术中,在针对普通话和方言进行语音识别时,需要切换至相应的语音识别模型进行识别,切换操作繁琐,并且当方言数量增加时需要增加相应的语音识别模型,成本较高。因此,本专利技术实施例提出一种语音识别的建模方法,能够对普通话和方言混合建模,从而实现一个模型既可以识别普通话,又可以识别方言。本专利技术实施例中,在针对普通话和方言混合建模本文档来自技高网...

【技术保护点】
1.一种语音识别的建模方法,其特征在于,包括:根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理,获取每帧第一语音数据对应的标签,统计输出的标签并对相同类别的标签进行去重,确定N类标签,其中,N为正整数,P为正整数;根据普通话语音样本数据训练神经网络,并根据所述神经网络构建语音识别模型,其中,所述神经网络的输出为所述N类标签;将所述P种方言的第二语音数据分别输入到所述语音识别模型中进行处理,获取方言的第二语音数据的识别文本;根据所述识别文本和标注的参考文本,对于所述P种方言中每一种方言确定每个字的第一错误率,根据所述每个字的第一错误率和普通话中每个字的第二错误率确定每个字的声学特性差异值,根据所述差异值大于预设阈值的字对应的M类标签新生成M类目标标签,其中,M为大于等于零的整数,所述第二错误率是根据所述语音识别模型对普通话的第二语音数据的处理结果得到的;根据普通话的第三语音数据和所述P种方言的第三语音数据训练声学模型,其中,所述声学模型的输出为所述N类标签和所述P种方言中每一种方言对应的所述M类目标标签。

【技术特征摘要】
1.一种语音识别的建模方法,其特征在于,包括:根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理,获取每帧第一语音数据对应的标签,统计输出的标签并对相同类别的标签进行去重,确定N类标签,其中,N为正整数,P为正整数;根据普通话语音样本数据训练神经网络,并根据所述神经网络构建语音识别模型,其中,所述神经网络的输出为所述N类标签;将所述P种方言的第二语音数据分别输入到所述语音识别模型中进行处理,获取方言的第二语音数据的识别文本;根据所述识别文本和标注的参考文本,对于所述P种方言中每一种方言确定每个字的第一错误率,根据所述每个字的第一错误率和普通话中每个字的第二错误率确定每个字的声学特性差异值,根据所述差异值大于预设阈值的字对应的M类标签新生成M类目标标签,其中,M为大于等于零的整数,所述第二错误率是根据所述语音识别模型对普通话的第二语音数据的处理结果得到的;根据普通话的第三语音数据和所述P种方言的第三语音数据训练声学模型,其中,所述声学模型的输出为所述N类标签和所述P种方言中每一种方言对应的所述M类目标标签。2.如权利要求1所述的方法,其特征在于,所述根据所述识别文本和标注的参考文本,对于所述P种方言中每一种方言确定每个字的第一错误率包括:基于最小编辑距离对所述识别文本和所述参考文本进行字符匹配,确定每个字正确的个数;根据所述每个字正确的个数和所述每个字出现的总个数,确定所述每个字的第一错误率。3.如权利要求2所述的方法,其特征在于,所述根据所述每个字的第一错误率和普通话中每个字的第二错误率确定每个字的声学特性差异值包括:根据如下公式确定所述差异值其中,Wf为方言中目标文字的错误率,Wp为普通话中所述目标文字的错误率,Wdiff为所述差异值。4.如权利要求1所述的方法,其特征在于,所述根据普通话的第三语音数据和所述P种方言的第三语音数据训练声学模型包括:根据所述普通话的第三语音数据和与所述普通话的第三语音数据对应的第一标注标签,以及所述P种方言的第三语音数据和与所述P种方言的第三语音数据对应的第二标注标签,生成训练样本,其中,对于所述P种方言中每一种方言的第三语音数据,将原先标注的所述M类标签替换为对应的M类目标标签;根据预设的目标函数和所述训练样本训练预设模型的处理参数,生成所述声学模型。5.如权利要求1所述的方法,其特征在于,在根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理之前,还包括:获取普通话的第四语音数据和对应的文本信息;提取每帧第四语音数据的MFCC特征,根据所述MFCC特征和所述文本信息,基于最大似然估计训练混合高斯模型的参数,生成所述对齐模型。6.一种语音识别的建模装置,其特征在于,包括:对齐模块,用于根据预先训练的对齐模型分...

【专利技术属性】
技术研发人员:袁胜龙
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1