模型生成方法、装置、智能终端及计算机可读存储介质制造方法及图纸

技术编号:38459983 阅读:9 留言:0更新日期:2023-08-11 14:37
本发明专利技术公开了一种模型生成方法、装置、智能终端及计算机可读存储介质,方法包括:对获取的原始音频进行预处理,得到候选音频;确定候选音频对应的第一对齐信息和第二对齐信息;根据候选音频、第一对齐信息以及第二对齐信息确定目标音频;根据目标音频和第一对齐信息对预设第一网络模型进行训练,生成目标时长预测模型。采用本发明专利技术能够解决现有的对齐工具获得的对齐信息不准确的问题。的对齐信息不准确的问题。的对齐信息不准确的问题。

【技术实现步骤摘要】
模型生成方法、装置、智能终端及计算机可读存储介质


[0001]本专利技术涉及人工智能
,尤其涉及的是一种模型生成方法、装置、智能终端及计算机可读存储介质。

技术介绍

[0002]随着AI技术的蓬勃发展,各大厂商尝试使用AI技术为用户的生活带来更多乐趣,其中,AI语音合成让传统的机械音成为历史,获得了用户的一致好评。为了给用户带来更多元的使用体验,部分厂家推出了个性化语音合成服务,个性化语音合成服务的关键一环是精准的获得用户录音与文本音素之间的对齐信息,但现有的对齐工具进行对齐时容易受噪声影响,导致对齐效果不尽人意,获得的对齐信息不准确。
[0003]因此,现有技术还有待改进和发展。

技术实现思路

[0004]本专利技术提供一种模型生成方法、装置、智能终端及计算机可读存储介质,旨在解决现有的对齐工具获得的对齐信息不准确的问题。
[0005]本专利技术解决问题所采用的技术方案如下:
[0006]第一方面,本专利技术实施例提供一种模型生成方法,包括:
[0007]对获取的原始音频进行预处理,得到候选音频;
[0008]确定候选音频对应的第一对齐信息和第二对齐信息;
[0009]根据候选音频、第一对齐信息以及第二对齐信息确定目标音频;
[0010]根据目标音频和第一对齐信息对预设第一网络模型进行训练,生成目标时长预测模型。
[0011]第二方面,本专利技术实施例还提供一种模型生成装置,包括:
[0012]音频处理模块,用于对获取的原始音频进行预处理,得到候选音频;
[0013]信息确定模块,用于确定候选音频对应的第一对齐信息和第二对齐信息;
[0014]音频确定模块,用于根据候选音频、第一对齐信息以及第二对齐信息,确定目标音频;
[0015]模型训练模块,用于根据目标音频和第一对齐信息对预设第一网络模型进行训练,生成目标时长预测模型。
[0016]第三方面,本专利技术实施例提供一种智能终端,智能终端包括处理器、存储器以及存储于存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述模型生成方法中的步骤。
[0017]第四方面,本专利技术实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述模型生成方法的步骤。
[0018]本专利技术的有益效果:首先对获取的原始音频进行预处理,得到候选音频,然后确定候选音频对应的第一对齐信息和第二对齐信息,接着根据候选音频、第一对齐信息以及第
二对齐信息确定目标音频,最后根据目标音频和第一对齐信息对预设第一网络模型进行训练,生成目标时长预测模型,因此,通过预处理后的原始音频和预处理后的原始音频对应的对齐信息确定目标音频,并根据目标音频和对齐信息生成目标时长预测模型,可以将难以自动处理的不合格的语音删除,减少人工处理语料的工作量,生成的目标时长预测模型能够精确获取对齐信息,提高音素与语音之间的对齐精度,保障发音的准确度和流畅性。
附图说明
[0019]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1是本专利技术实施例提供的模型生成方法的流程示意图;
[0021]图2是本专利技术实施例提供的第一时长预测模型的结构示意图;
[0022]图3是本专利技术实施例提供的第一声音特征编码器的结构示意图;
[0023]图4是本专利技术实施例提供的目标时长预测模型的结构示意图;
[0024]图5是本专利技术实施例提供的模型生成装置的原理框图;
[0025]图6是本专利技术实施例提供的智能终端的内部结构原理框图。
具体实施方式
[0026]为使本专利技术的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0027]需要说明,若本专利技术实施例中有涉及方向性指示(诸如上、下、左、右、前、后
……
),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
[0028]为了给用户带来更多元的使用体验,部分厂家推出了个性化语音合成服务,通过个性化语音合成服务,用户仅需录音20句甚至几句话,便可通过神经网络克隆用户的声音。个性化语音合成服务的关键一环是精准的获得用户录音与文本音素之间的对齐信息,目前许多厂商使用的对齐工具是montreal

forced

aligner(MFA)强制对齐工具,使用MFA对齐时在语音中混有难以去除的噪声如换气声按键音等时,对齐效果不尽人意,获取的对齐信息不准确。
[0029]为了解决现有技术的问题,本实施例提供了一种模型生成方法,通过该方法可以将难以自动处理的不合格的语音删除,减少人工处理语料的工作量,提高音素与语音之间的对齐精度,保障发音的准确度和流畅性。具体实施时,首先对获取的原始音频进行预处理,得到候选音频,然后,确定候选音频对应的第一对齐信息和第二对齐信息,接着根据候选音频、第一对齐信息以及第二对齐信息确定目标音频,最后,根据目标音频和第一对齐信息对预设第一网络模型进行训练,生成目标时长预测模型,因此,通过预处理后的原始音频和预处理后的原始音频对应的对齐信息确定目标音频,并根据目标音频和对齐信息生成目标时长预测模型,可以将难以自动处理的不合格的语音删除,减少人工处理语料的工作量,
生成的目标时长预测模型能够精确获取对齐信息,提高音素与语音之间的对齐精度,保障发音的准确度和流畅性。
[0030]示例性方法
[0031]本专利技术实施例提供一种模型生成方法,该方法可以应用于智能终端。具体如图1中所示,方法包括:
[0032]步骤S100、对获取的原始音频进行预处理,得到候选音频。
[0033]具体地,原始音频可以通过带有录音功能的设备获取,例如,原始音频可以通过带有录音功能和麦克风的智能终端上的微信小程序获取,在使用微信小程序获取用户录音时,从后台数千条文本随机抽取若干条文本给当前用户录音,录音前开启麦克风进行环境检测,当检测到环境噪声低于60分贝时提示当前用户可以开始录音。考虑到原始音频中存在丢字漏字发音不清的句子,本实施例获取原始音频后,对原始音频进行预处理,剔除原始音频中丢字漏字发音不清的句子,得到候选音频。
[0034]在一具体实施方式中,步骤S100具体包括:
[0035]步骤S110、将获取的原始音频转换为录音文本;
[0036]步骤S120、根据录音文本及原始音频对应的真实文本对原始音频进行过滤,得到第一过滤音频;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型生成方法,其特征在于,包括:对获取的原始音频进行预处理,得到候选音频;确定所述候选音频对应的第一对齐信息和第二对齐信息;根据所述候选音频、所述第一对齐信息以及所述第二对齐信息确定目标音频;根据所述目标音频和所述第一对齐信息对预设第一网络模型进行训练,生成目标时长预测模型。2.根据权利要求1所述的方法,其特征在于,所述对获取的原始音频进行预处理,得到候选音频,包括:将获取的原始音频转换为录音文本;根据所述录音文本及所述原始音频对应的真实文本对所述原始音频进行过滤,得到第一过滤音频;获取所述第一过滤音频中各个字对应的单字时长,根据所述单字时长及预先确定的所述第一过滤音频中各个字对应的标准时长对所述第一过滤音频进行过滤,得到第二过滤音频;对所述第二过滤音频进行降噪处理,得到降噪音频;对所述降噪音频进行静音消除处理,得到候选音频。3.根据权利要求1所述的方法,其特征在于,所述确定所述候选音频对应的第一对齐信息和第二对齐信息,包括:分别获取所述候选音频对应的第一目标梅尔频谱和若干第一音素序列;将所述第一目标梅尔频谱和所述若干第一音素序列输入第一时长预测模型进行处理,输出所述候选音频对应的第一对齐信息;以及将所述第一目标梅尔频谱和所述若干第一音素序列输入第二时长预测模型进行处理,输出所述候选音频对应的第二对齐信息。4.根据权利要求3所述的方法,其特征在于,所述根据所述候选音频、所述第一对齐信息以及所述第二对齐信息确定目标音频,包括:根据所述第一对齐信息和所述第二对齐信息,确定所述候选音频中各句子对应的单音素差值序列;根据所述各句子对应的单音素差值序列对所述候选音频进行过滤,得到目标音频。5.根据权利要求4所述的方法,其特征在于,所述根据所述各句子对应的单音素差值序列对所述候选音频进行过滤,得到目标音频,包括:从所述各句子对应的单音素差值序列中获取各句子对应的最大单音素差值;当所述最大单音素差值大于预先确定的标准值时,将所述最大单音素差值对应的句子从所述候选音频中剔除,得到目标音频。6.根据权利要求5所述的方法,其特征在于,所述对获取的原始音频进行预处理,得到候选音频之前,所述方法还包括:将获取的预设第一训练样本分别输入所述第一时长预测模型和所述第二时长预测模型进行处理,输出所述第一训练样本对应的第三对齐信息和第四对齐信息;根据所述第三对齐信息和所述第四对齐信息,确定所述预先确定的标准值。7.根据权利要求6所述的方法,其特征在于,所述对获取的原始音频进行预处理,得到
候选音频之前,所述方法还包括:通过获取的预设第二训练样本对预设第二网络模型进行训练,得到第三网络模型;通过所述第一训练样本对所述第三网络模型进行训练,得到所述第一时长预测模型。8.根据权利要求6所述的方法,其特征在于,所述对获取的原始音频进行预处理,得...

【专利技术属性】
技术研发人员:陈崇明
申请(专利权)人:TCL科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1