一种语音翻译的方法、训练语音翻译模型的方法及装置制造方法及图纸

技术编号:35027405 阅读:92 留言:0更新日期:2022-09-24 22:59
本申请提供一种语音翻译的方法、训练语音翻译模型的方法及装置,该方法包括,获取目标领域的待翻译语音;将待翻译语音输入预先训练好的语音翻译模型中,得到待翻译语音对应的目标语种的文本信息,其中,待翻译语音对应的初始语种和目标语种不同,语音翻译模型是通过目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对基础模型进行训练得到的,基础模型是通过基础语音样本对初始模型训练得到的。通过该方法可以达到使语音翻译的结果更加准确的效果。使语音翻译的结果更加准确的效果。使语音翻译的结果更加准确的效果。

【技术实现步骤摘要】
一种语音翻译的方法、训练语音翻译模型的方法及装置


[0001]本申请涉及语音翻译的领域,具体而言,涉及一种语音翻译的方法、训练语音翻译模型的方法及装置。

技术介绍

[0002]目前,随着人工智能技术的大力发展,语音识别技术和翻译技术已经广泛应用,在语音翻译中将语音转换成与该语音不同语言的文本,需要串联多个模型来实现语音的翻译。
[0003]上述串联多个模型实现语音翻译的过程中存在很大的误差,并且需要大量的数据进行串联模型的训练,导致翻译系统的性能急剧下降。
[0004]因此,如何使语音翻译的结果更加准确,是一个需要解决的技术问题。

技术实现思路

[0005]本申请实施例的目的在于提供一种语音翻译的方法和训练语音翻译模型的方法,通过本申请的实施例的技术方案可以达到使语音翻译的结果更加准确的效果。
[0006]第一方面,本申请实施例提供了一种语音翻译的方法,包括,获取目标领域的待翻译语音;将待翻译语音输入预先训练好的语音翻译模型中,得到待翻译语音对应的目标语种的文本信息,其中,待翻译语音对应的初始语种和目标语种不同,语音翻译模型是通过目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对基础模型进行训练得到的,基础模型是通过基础语音样本对初始模型训练得到的,混合语音样本包括初始语种的混合语音和混合语音对应的目标语种的混合文本,基础语音样本包括初始语种对应的基础语音和基础语音对应的目标语种的基础文本。
[0007]在上述过程中,在目标领域利用目标领域的语音和通用领域的语音对基础模型的训练,使模型实现了跨语种翻译的同时,可以快速的迭代出目标领域的语音翻译模型,通过控制目标领域和通用领域的样本比例,使训练出的语音翻译模型在对待翻译语音进行翻译时,也可以达到使语音翻译的结果更加准确的效果。
[0008]一种实施例中,语音翻译模型包括音频转换模块、嵌入模块、编码器模块和解码器模块;
[0009]音频转换模块,用于将语音转换成频谱;
[0010]嵌入模块,用于将频谱嵌入矩阵,得到频谱矩阵或者将混合文本和基础文本嵌入矩阵,得到文本矩阵;
[0011]编码器模块,用于对频谱矩阵进行数据的处理,得到待翻译语音对应的第一特征向量;
[0012]解码器模块,用于对文本矩阵进行数据的处理,得到文本对应的第二特征向量,并将第一特征向量和第二特征向量进特征的交互,得到文本信息。
[0013]在上述过程中,通过语音翻译模型的各个模块对待翻译语音的处理,实现了目标
领域中语音跨语种翻译的同时,使翻译的结果更加准确。
[0014]一种实施例中,编码器模块包括第一自注意力模块、空洞卷积模块和第一向量转换模块,解码器模块包括第二自注意力模块、多注意力模块和第二向量转换模块;
[0015]第一自注意力模块,用于对频谱矩阵进行全部特征的提取,得到全部频谱特征;
[0016]空洞卷积模块,用于对频谱矩阵进行预设部分的特征提取,得到部分频谱特征;
[0017]第一向量转换模块,用于将全部频谱特征和部分频谱特征转化成向量,得到第一特征向量;
[0018]第二自注意力模块用于对文本矩阵进行全部特征的提取,得到全部文本特征;
[0019]第二向量转换模块,用于将全部文本特征转化成向量,得到第二特征向量;
[0020]多注意力模块,用于将第一特征向量和第二特征向量进行特征的交互,得到文本信息。
[0021]在上述过程中,在基础的模型架构中加入了新的空洞卷积模块和向量转换模块,使模型在对数据处理时处理的速度更快,得到的处理结果更加准确。
[0022]第二方面,本申请实施例提供了一种训练语音翻译模型的方法,包括,利用基础语音样本对初始语音模型进行训练,得到基础模型;将目标领域的语音样本和通用领域的语音样本按照预设比例混合得到的混合语音样本对基础模型进行训练,得到语音翻译模型,其中,混合语音样本包括初始语种的混合语音和混合语音对应的目标语种的混合文本,基础语音样本包括初始语种对应的基础语音和基础语音对应的目标语种的基础文本。
[0023]在上述过程中,在目标领域利用目标领域的语音和通用领域的语音对基础模型的训练,使模型能够实现跨语种翻译的同时,可以快速的迭代出目标领域的语音翻译模型,通过控制目标领域和通用领域的样本比例,使训练出的语音翻译模型在对待翻译语音进行翻译时,也可以达到使语音翻译的结果更加准确的效果。
[0024]一种实施例中,在利用基础语音样本对初始语音模型进行训练,得到基础模型之前,还包括:
[0025]将基础语音样本以句子为单位切分成多条语音,得到基础语音样本。
[0026]在上述过程中,通过对语音的切分,可以得到多个单位更小的样本,再利用切分后的样本对模型进行训练,可以使模型训练的结果更加准确。
[0027]一种实施例中,在将目标领域的语音样本和通用领域的语音样本按照预设比例混合得到的混合语音样本对基础模型进行训练,得到语音翻译模型之前,还包括:
[0028]将目标领域的语音和通用领域的语音对应的翻译文本分别进行分词,得到第一分词集合和第二分词集合;
[0029]计算第一分词在第二分词中的复杂度;
[0030]基于复杂度,确定目标领域的语音样本和通用领域的语音样本的预设比例。
[0031]在上述过程中,利用算法精确的计算出预设比例的目标领域的语音样本和通用领域的语音样本对基础模型进行训练,使模型在实现跨语种翻译的同时,使翻译的结果更加准确。
[0032]第三方面,本申请实施例提供了一种语音翻译的装置,包括:
[0033]获取模块,用于获取目标领域的待翻译语音;
[0034]翻译模块,用于将待翻译语音输入预先训练好的语音翻译模型中,得到待翻译语
音对应的目标语种的文本信息,其中,待翻译语音对应的初始语种和目标语种不同,语音翻译模型是通过目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对基础模型进行训练得到的,基础模型是通过基础语音样本对初始模型训练得到的,混合语音样本包括初始语种的混合语音和混合语音对应的目标语种的混合文本,基础语音样本包括初始语种对应的基础语音和基础语音对应的目标语种的基础文本。
[0035]可选的,语音翻译模型包括音频转换模块、嵌入模块、编码器模块和解码器模块;
[0036]音频转换模块,用于将语音转换成频谱;
[0037]嵌入模块,用于将频谱嵌入矩阵,得到频谱矩阵或者将混合文本和基础文本嵌入矩阵,得到文本矩阵;
[0038]编码器模块,用于对频谱矩阵进行数据的处理,得到待翻译语音对应的第一特征向量;
[0039]解码器模块,用于对文本矩阵进行数据的处理,得到文本对应的第二特征向量,并将第一特征向量和第二特征向量进特征的交互,得到文本信息。
[0040]可选的,编码器模块包括第一自注意力模块、空洞卷积模块和第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音翻译的方法,其特征在于,包括:获取目标领域的待翻译语音;将所述待翻译语音输入预先训练好的语音翻译模型中,得到所述待翻译语音对应的目标语种的文本信息,其中,所述待翻译语音对应的初始语种和所述目标语种不同,所述语音翻译模型是通过所述目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对基础模型进行训练得到的,所述基础模型是通过基础语音样本对初始模型训练得到的,所述混合语音样本包括所述初始语种的混合语音和所述混合语音对应的所述目标语种的混合文本,所述基础语音样本包括所述初始语种对应的基础语音和所述基础语音对应的所述目标语种的基础文本。2.根据权利要求1所述的方法,其特征在于,所述语音翻译模型包括音频转换模块、嵌入模块、编码器模块和解码器模块;所述音频转换模块,用于将所述语音转换成频谱;所述嵌入模块,用于将所述频谱嵌入矩阵,得到频谱矩阵或者将所述混合文本和所述基础文本嵌入矩阵,得到文本矩阵;所述编码器模块,用于对所述频谱矩阵进行数据的处理,得到所述待翻译语音对应的第一特征向量;所述解码器模块,用于对所述文本矩阵进行数据的处理,得到所述文本对应的第二特征向量,并将所述第一特征向量和所述第二特征向量进特征的交互,得到所述文本信息。3.根据权利要求2所述的方法,其特征在于,所述编码器模块包括第一自注意力模块、空洞卷积模块和第一向量转换模块,所述解码器模块包括第二自注意力模块、多注意力模块和第二向量转换模块;所述第一自注意力模块,用于对所述频谱矩阵进行全部特征的提取,得到全部频谱特征;所述空洞卷积模块,用于对所述频谱矩阵进行预设部分的特征提取,得到部分频谱特征;所述第一向量转换模块,用于将所述全部频谱特征和所述部分频谱特征转化成向量,得到所述第一特征向量;所述第二自注意力模块用于对所述文本矩阵进行全部特征的提取,得到全部文本特征;第二向量转换模块,用于将所述全部文本特征转化成向量,得到所述第二特征向量;所述多注意力模块,用于将所述第一特征向量和所述第二特征向量进行特征的交互,得到所述文本信息。4.一种训练语音翻译模型的方法,其特征在于,包括:利用基础语音样本对初始语音模型进行训练,得到基础模型;将目标领域的语音样本和通用领域的语音样本按照预设比例混合得到的混合语音样本对基础模型进行训练,得到语音翻译模型,其中,所述混合语音样本包括初始语种的混合语音和所述混合语音对应的目标语种的混合文本,所述基础语音样本包括所述初始语种对应的基础语音和所述基础语音对应的所...

【专利技术属性】
技术研发人员:蔡岩松杜新凯邓钊李亚楠牛国扬
申请(专利权)人:阳光保险集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1