基于语音合成模型的预训练方法、装置和电子设备制造方法及图纸

技术编号:34530421 阅读:17 留言:0更新日期:2022-08-13 21:22
本公开公开了一种基于语音合成模型的预训练方法、装置和电子设备,尤其涉及自然语言处理、深度学习、语音技术等人工智能技术领域。其中,方案为:获取语音样本数据及语音样本数据对应的文本样本数据;对语音样本数据进行特征提取,以生成样本语音特征;根据样本语音特征和跨语言音素表,生成语音矩阵特征;根据语音矩阵特征和文本样本数据进行联合掩码学习,以对语音合成模型进行预训练。由此,通过语音矩阵特征和文本样本数据的联合掩码学习,对语音合成模型进行预训练,也即在对语音合成模型进行预训练的过程中,充分考虑到了语音特征和文本特征的联合训练,从而可使得生成的语音合成模型更为准确可靠,进而为提高语音合成质量提供了条件。提供了条件。提供了条件。

【技术实现步骤摘要】
基于语音合成模型的预训练方法、装置和电子设备


[0001]本公开涉及计算机
,具体涉及自然语言处理、深度学习、语音技术等人工智能
,尤其涉及一种基于语音合成模型的预训练方法、装置和电子设备。

技术介绍

[0002]随着计算机技术的发展,语音作为人们获取信息的重要载体,已经被广泛应用于日常生活和工作中。现有的主流语音模型在许多语音理解相关方向任务效果上提升显著,如语音识别、语音分类和语音文本翻译等。但对于语音合成,生成高质量语音仍然具有挑战性。
[0003]相关技术中,语音合成模型通常只能处理单一语言或者单一类型的语音合成任务,并且跨语言语音合成通常需要引入先验知识,从而可能使得语音合成质量不高的问题。由此,如何对语音合成模型进行预训练,以提高语音合成质量,显得至关重要。

技术实现思路

[0004]本公开提供了一种基于语音合成模型的预训练方法、装置、电子设备和存储介质。
[0005]本公开一方面,提供了一种基于语音合成模型的预训练方法,包括:
[0006]获取语音样本数据,以及所述语音样本数据对应的文本样本数据;
[0007]对所述语音样本数据进行特征提取,以生成样本语音特征;
[0008]根据所述样本语音特征和跨语言音素表,生成语音矩阵特征;
[0009]根据所述语音矩阵特征和所述文本样本数据进行联合掩码学习,以对语音合成模型进行预训练。
[0010]本公开的另一方面,提供了一种基于语音合成模型的预训练装置,包括:
[0011]获取模块,用于获取语音样本数据,以及所述语音样本数据对应的文本样本数据;
[0012]提取模块,用于对所述语音样本数据进行特征提取,以生成样本语音特征;
[0013]第一生成模块,用于根据所述样本语音特征和跨语言音素表,生成语音矩阵特征;
[0014]处理模块,用于根据所述语音矩阵特征和所述文本样本数据进行联合掩码学习,以对语音合成模型进行预训练。
[0015]本公开的另一方面,提供了一种电子设备,包括:
[0016]至少一个处理器;以及
[0017]与所述至少一个处理器通信连接的存储器;其中,
[0018]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述一方面实施例所述的基于语音合成模型的预训练方法。
[0019]本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其上存储有计算机程序,所述计算机指令用于使所述计算机执行上述一方面实施例所述的基于语音合成模型的预训练方法。
[0020]本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述一方面实施例所述的基于语音合成模型的预训练方法。
[0021]本公开提供的基于语音合成模型的预训练方法、装置、电子设备和存储介质,可以先获取语音样本数据,以及语音样本数据对应的文本样本数据,之后可以对语音样本数据进行特征提取,以生成样本语音特征,之后可以根据样本语音特征和跨语言音素表,生成语音矩阵特征,之后可以根据语音矩阵特征和文本样本数据进行联合掩码学习,以对语音合成模型进行预训练。由此,可以通过对语音样本数据进行特征提取,以生成样本语音特征,之后可以利用该样本语音特征和跨语言因素表,生成语音矩阵特征,之后可以通过对语音矩阵特征和文本样本数据的联合掩码学习,对语音合成模型进行预训练,也即在对语音合成模型进行预训练的过程中,充分考虑到了语音特征和文本特征的联合训练,从而可使得生成的语音合成模型更为准确可靠,进而为提高语音合成质量提供了条件。
[0022]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0023]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0024]图1为本公开一实施例提供的一种基于语音合成模型的预训练方法的流程示意图;
[0025]图1A为本公开一实施例提供的一种第一语言音素与第二语言音素间映射关系的示意图;
[0026]图2为本公开一实施例提供的一种基于语音合成模型的预训练方法的流程示意图;
[0027]图2A为本公开一实施例提供的一种基于语音合成模型的预训练方法的应用场景示意图;
[0028]图2B为本公开一实施例提供的一种基于语音合成模型的预训练过程的示意图;
[0029]图3为本公开一实施例提供的一种基于语音合成模型的预训练方法的流程示意图;
[0030]图4为用来实现本公开实施例的基于语音合成模型的预训练方法的电子设备的框图。
具体实施方式
[0031]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0032]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习、深度学习、
大数据处理技术、知识图谱技术等几大方向。
[0033]自然语言处理是用计算机来处理、理解以及运用人类语言(如中文、英文等),它是计算机科学与语言学的交叉学科,又常被称为计算语言学。由于自然语言是人类区别于其他动物的根本标志。没有语言,人类的思维也就无从谈起,所以自然语言处理体现了人工智能的最高任务与境界,也就是说,只有当计算机具备了处理自然语言的能力时,机器才算实现了真正的智能。
[0034]深度学习是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。
[0035]语音技术是指在计算机领域中的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式,语音比其他的交互方式有更多的优势。
[0036]下面参考附图描述本公开实施例的基于语音合成模型的预训练方法、装置、电子设备和存储介质。
[0037]本公开实施例的基于语音合成模型的预训练方法,可由本公开实施例提供的基于语音合成模型的预训练装置执行,该装置可配置于电子设备中。
[0038]图1为本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语音合成模型的预训练方法,其中,包括:获取语音样本数据,以及所述语音样本数据对应的文本样本数据;对所述语音样本数据进行特征提取,以生成样本语音特征;根据所述样本语音特征和跨语言音素表,生成语音矩阵特征;根据所述语音矩阵特征和所述文本样本数据进行联合掩码学习,以对语音合成模型进行预训练。2.如权利要求1所述的方法,其中,在所述根据所述语音矩阵特征和所述文本样本数据进行联合掩码学习,以对语音合成模型进行预训练之前,还包括:对所述语音矩阵特征进行语音编码以使所述语音矩阵特征和所述文本样本数据的特征维度相同。3.如权利要求1所述的方法,其中,所述根据所述语音矩阵特征和所述文本样本数据进行联合掩码学习,以对语音合成模型进行预训练,包括:对所述语音矩阵特征之中的音频矩阵采用第一掩码方式进行掩码,对所述文本样本数据之中的文本特征采用第二掩码方式进行掩码。4.如权利要求3所述的方法,其中,所述第一掩码方式为连续区间级别的掩码方式,所述第二掩码方式为离散掩码方式。5.如权利要求3所述的方法,其中,所述第一掩码方式的掩码位置与所述第二掩码方式的掩码位置不同。6.如权利要求3所述的方法,其中,还包括:针对所述语音矩阵特征采用残差损失函数进行预训练,并针对所述文本样本数据采用交叉熵损失函数进行预训练。7.如权利要求1所述的方法,其中,所述跨语言音素表通过以下步骤获得:获取第一语言音素和第二语言音素;通过映射学习模型,学习所述第一语言音素和所述第二语言音素之间的映射关系,以形成所述跨语言音素表。8.一种基于语音合成模型的预训练装置,其中,包括:获取模块,用于获取语音样本数据,以及所述语音样本数据对应的文本样本数据;提取模块,用于对所述语音样本数据进行特征提取,以生成样本语音特征;第一生成模块,用于根据所述样本语音特征和跨语言音素表,生成语音矩阵特征;处理...

【专利技术属性】
技术研发人员:樊晓然郑人杰陈俊坤朱鹏飞庞超王硕寰原湉李昕同孙宇黄亮陈泽裕
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1