语音处理模型的训练方法、装置、设备及存储介质制造方法及图纸

技术编号:29963824 阅读:16 留言:0更新日期:2021-09-08 09:27
本申请提供一种语音处理模型的训练方法、装置、设备及计算机可读存储介质,该方法包括:获取样本数据,样本数据包括源语种的语音和与源语种的语音对应的目标语种样本文本;将源语种的语音输入语音处理模型的语音识别子模型,得到源语种文本;将源语种文本输入语音处理模型的字词数据库中遍历,得到源语种文本对应的词向量;将词向量和目标语种样本文本输入语音处理模型的机器翻译子模型,得到目标语种翻译文本;基于预设损失函数,根据目标语种翻译文本和目标语种样本文本计算语音处理模型的损失值;根据损失值对语音处理模型进行参数调整,得到训练好的语音处理模型。可以减少模型的训练数据,提高训练效率。本申请还涉及区块链技术。链技术。链技术。

【技术实现步骤摘要】
语音处理模型的训练方法、装置、设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种语音处理模型的训练方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]目前,语音翻译技术多数先通过ASR对语音进行文本转录,再通过机器翻译将转录后的文本翻译为所需要的目标文本,需要经过自动语音识别(ASR)模型转录以及神经机器翻译(NMT)模型翻译,在对上述模型进行训练时,需要大量的数据,训练的效率不高,且自动语音识别(ASR)模型的转录效果不够精确的情况下,经翻译处理后输出的结果会产生更大的误差,从而得到的从语音到文本的翻译结果不符合预期。

技术实现思路

[0003]本申请的主要目的在于提供一种语音处理模型的训练方法、装置、设备及计算机可读存储介质,旨在提高语音处理模型的训练效率和准确性,训练好的语音处理模型能够降低翻译文本输出的时延性以及得到更精准的翻译文本。
[0004]第一方面,本申请提供一种语音处理模型的训练方法,所述语音处理模型的训练方法包括以下步骤:获取样本数据,所述样本数据包括源语种的语音和与所述源语种的语音对应的目标语种样本文本;
[0005]将所述源语种的语音输入语音处理模型的语音识别子模型,得到所述语音识别子模型输出的源语种文本;
[0006]将所述源语种文本输入所述语音处理模型的字词数据库中遍历,得到所述源语种文本对应的词向量;
[0007]将所述词向量和所述源语种的语音对应的目标语种样本文本输入所述语音处理模型的机器翻译子模型,得到所述机器翻译子模型输出的目标语种翻译文本;
[0008]基于预设损失函数,根据所述目标语种翻译文本和所述目标语种样本文本计算所述语音处理模型的损失值;
[0009]根据所述损失值对语音处理模型进行参数调整,得到训练好的语音处理模型。
[0010]第二方面,本申请还提供一种语音处理模型的训练装置,所述语音处理模型的训练装置包括:
[0011]数据获取模块,用于获取样本数据,所述样本数据包括源语种的语音和与所述源语种的语音对应的目标语种样本文本;
[0012]语音识别模块,用于将所述源语种的语音输入语音处理模型的语音识别子模型,得到所述语音识别子模型输出的源语种文本;
[0013]文本遍历模块,用于将所述源语种文本输入所述语音处理模型的字词数据库中遍历,得到所述源语种文本对应的词向量;
[0014]文本翻译模块,用于将所述词向量和所述源语种的语音对应的目标语种样本文本
输入所述语音处理模型的机器翻译子模型,得到所述机器翻译子模型输出的目标语种翻译文本;
[0015]损失计算模块,用于基于预设损失函数,根据所述目标语种翻译文本和所述目标语种样本文本计算所述语音处理模型的损失值;
[0016]参数调整模块,用于根据所述损失值对语音处理模型进行参数调整,得到训练好的语音处理模型。
[0017]第三方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的语音处理模型的训练方法的步骤。
[0018]第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的语音处理模型的训练方法的步骤。
[0019]本申请提供一种语音处理模型的训练方法、装置、设备及计算机可读存储介质,本申请通过获取样本数据,所述样本数据包括源语种的语音和与所述源语种的语音对应的目标语种样本文本;将所述源语种的语音输入语音处理模型的语音识别子模型,得到所述语音识别子模型输出的源语种文本;将所述源语种文本输入所述语音处理模型的字词数据库中遍历,得到所述源语种文本对应的词向量;将所述词向量和所述源语种的语音对应的目标语种样本文本输入所述语音处理模型的机器翻译子模型,得到所述机器翻译子模型输出的目标语种翻译文本;基于预设损失函数,根据所述目标语种翻译文本和所述目标语种样本文本计算所述语音处理模型的损失值;根据所述损失值对语音处理模型进行参数调整,得到训练好的语音处理模型。可以减少语音处理模型的训练数据和需要训练的子模型,有效提高语音处理模型训练的效率,且训练好的语音处理模型能够提高对语音进行识别和翻译的速率,提升语音翻译的效果,得到更精准的翻译文本。
附图说明
[0020]为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1为本申请的一实施例提供的一种语音处理模型的训练方法的步骤示意图;
[0022]图2为本申请的一实施例提供的一种语音处理模型的示意性框图;
[0023]图3为本申请的另一实施例提供的一种语音处理模型的示意性框图;
[0024]图4为本申请的实施例提供的一种语音处理模型的训练方法的子步骤示意图;
[0025]图5本申请的另一实施例提供的一种语音处理模型的示意性框图;
[0026]图6为本申请的实施例提供的一种语音处理模型的训练方法的子步骤示意图;
[0027]图7为本申请的实施例提供的一种语音处理模型的训练方法的子步骤示意图;
[0028]图8为本申请一实施例提供的另一种语音处理模型的训练装置的示意性框图;
[0029]图9为本申请一实施例涉及的计算机设备的结构示意框图。
[0030]本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0031]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0032]附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0033]本申请实施例提供一种语音处理模型的训练方法、装置、计算机设备及计算机可读存储介质。其中,该语音处理模型的训练方法可应用于终端设备中,该终端设备可以手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。
[0034]下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
[0035]请参照图1和图2,图1为本申请的实施例提供的一种语音处理模型的训练方法的步骤示意图,图2为本申请的实施例提供的一种语音处理模型的示意性框图。
[0036]如图1所示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理模型的训练方法,其特征在于,包括:获取样本数据,所述样本数据包括源语种的语音和与所述源语种的语音对应的目标语种样本文本;将所述源语种的语音输入语音处理模型的语音识别子模型,得到所述语音识别子模型输出的源语种文本;将所述源语种文本输入所述语音处理模型的字词数据库中遍历,得到所述源语种文本对应的词向量;将所述词向量和所述源语种的语音对应的目标语种样本文本输入所述语音处理模型的机器翻译子模型,得到所述机器翻译子模型输出的目标语种翻译文本;基于预设损失函数,根据所述目标语种翻译文本和所述目标语种样本文本计算所述语音处理模型的损失值;根据所述损失值对语音处理模型进行参数调整,得到训练好的语音处理模型。2.如权利要求1所述的语音处理模型的训练方法,其特征在于,所述机器翻译子模型包括编码器和解码器;所述将所述词向量和所述目标语种样本文本输入所述语音处理模型的机器翻译子模型,得到所述机器翻译子模型输出的目标语种翻译文本,包括:将所述词向量输入所述编码器进行权重计算,得到权重计算后的权重词向量;将所述权重词向量和所述目标语种样本文本输入所述解码器进行翻译得到目标语种翻译文本。3.如权利要求2所述的语音处理模型的训练方法,其特征在于,所述将所述权重词向量和所述目标语种样本文本输入所述解码器进行翻译得到目标语种翻译文本,包括:将所述权重词向量和所述目标语种样本文本N个位置的样本词向量输入所述解码器进行翻译,得到位于目标语种翻译文本第N+1个位置的目标词向量,其中,N为大于零且不大于所述权重词向量的数量的正整数;将预测得到的位于目标语种翻译文本各个位置的目标词向量进行拼接得到目标语种翻译文本。4.如权利要求3所述的语音处理模型的训练方法,其特征在于,所述将所述权重词向量和所述目标语种样本文本N个位置的样本词向量输入所述解码器进行翻译,得到位于目标语种翻译文本第N+1个位置的目标词向量,包括:若N等于1,将所述权重词向量和位于所述目标语种样本文本第一个位置的样本词向量输入所述解码器进行翻译,得到位于目标语种翻译文本第二个位置的目标词向量,以及将N加1;若N大于1,将预测得到的目标语种翻译文本N个位置的目标词向量进行拼接,并将拼接后的目标词向量、目标语种样本文本N个位置的样本词向量以及权重词向量输入所述解码器进行翻译,得到位于目标语种翻译文本的第N+1个位置的目标词向量,以及若N不大于所述权重词向量的数量时将N加1。5.如权利要求1

4中任一项所述的语音处理模型的训练方法,其特征在于,所述基于预设损失函数,根据...

【专利技术属性】
技术研发人员:陈霖捷王健宗黄章成
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1