【技术实现步骤摘要】
模型生成方法、装置、智能终端及计算机可读存储介质
[0001]本专利技术涉及人工智能
,尤其涉及的是一种模型生成方法、装置、智能终端及计算机可读存储介质。
技术介绍
[0002]随着AI技术的蓬勃发展,各大厂商尝试使用AI技术为用户的生活带来更多乐趣,其中,AI语音合成让传统的机械音成为历史,获得了用户的一致好评。为了给用户带来更多元的使用体验,部分厂家推出了个性化语音合成服务,个性化语音合成服务的关键一环是精准的获得用户录音与文本音素之间的对齐信息,但现有的对齐工具进行对齐时容易受噪声影响,导致对齐效果不尽人意,获得的对齐信息不准确。
[0003]因此,现有技术还有待改进和发展。
技术实现思路
[0004]本专利技术提供一种模型生成方法、装置、智能终端及计算机可读存储介质,旨在解决现有的对齐工具获得的对齐信息不准确的问题。
[0005]本专利技术解决问题所采用的技术方案如下:
[0006]第一方面,本专利技术实施例提供一种模型生成方法,包括:
[0007]对获取的原始音频进行预处理,得到候选音频;
[0008]确定候选音频对应的第一对齐信息和第二对齐信息;
[0009]根据候选音频、第一对齐信息以及第二对齐信息确定目标音频;
[0010]根据目标音频和第一对齐信息对预设第一网络模型进行训练,生成目标时长预测模型。
[0011]第二方面,本专利技术实施例还提供一种模型生成装置,包括:
[0012]音频处理模块,用于对获取的原 ...
【技术保护点】
【技术特征摘要】
1.一种模型生成方法,其特征在于,包括:对获取的原始音频进行预处理,得到候选音频;确定所述候选音频对应的第一对齐信息和第二对齐信息;根据所述候选音频、所述第一对齐信息以及所述第二对齐信息确定目标音频;根据所述目标音频和所述第一对齐信息对预设第一网络模型进行训练,生成目标时长预测模型。2.根据权利要求1所述的方法,其特征在于,所述对获取的原始音频进行预处理,得到候选音频,包括:将获取的原始音频转换为录音文本;根据所述录音文本及所述原始音频对应的真实文本对所述原始音频进行过滤,得到第一过滤音频;获取所述第一过滤音频中各个字对应的单字时长,根据所述单字时长及预先确定的所述第一过滤音频中各个字对应的标准时长对所述第一过滤音频进行过滤,得到第二过滤音频;对所述第二过滤音频进行降噪处理,得到降噪音频;对所述降噪音频进行静音消除处理,得到候选音频。3.根据权利要求1所述的方法,其特征在于,所述确定所述候选音频对应的第一对齐信息和第二对齐信息,包括:分别获取所述候选音频对应的第一目标梅尔频谱和若干第一音素序列;将所述第一目标梅尔频谱和所述若干第一音素序列输入第一时长预测模型进行处理,输出所述候选音频对应的第一对齐信息;以及将所述第一目标梅尔频谱和所述若干第一音素序列输入第二时长预测模型进行处理,输出所述候选音频对应的第二对齐信息。4.根据权利要求3所述的方法,其特征在于,所述根据所述候选音频、所述第一对齐信息以及所述第二对齐信息确定目标音频,包括:根据所述第一对齐信息和所述第二对齐信息,确定所述候选音频中各句子对应的单音素差值序列;根据所述各句子对应的单音素差值序列对所述候选音频进行过滤,得到目标音频。5.根据权利要求4所述的方法,其特征在于,所述根据所述各句子对应的单音素差值序列对所述候选音频进行过滤,得到目标音频,包括:从所述各句子对应的单音素差值序列中获取各句子对应的最大单音素差值;当所述最大单音素差值大于预先确定的标准值时,将所述最大单音素差值对应的句子从所述候选音频中剔除,得到目标音频。6.根据权利要求5所述的方法,其特征在于,所述对获取的原始音频进行预处理,得到候选音频之前,所述方法还包括:将获取的预设第一训练样本分别输入所述第一时长预测模型和所述第二时长预测模型进行处理,输出所述第一训练样本对应的第三对齐信息和第四对齐信息;根据所述第三对齐信息和所述第四对齐信息,确定所述预先确定的标准值。7.根据权利要求6所述的方法,其特征在于,所述对获取的原始音频进行预处理,得到
候选音频之前,所述方法还包括:通过获取的预设第二训练样本对预设第二网络模型进行训练,得到第三网络模型;通过所述第一训练样本对所述第三网络模型进行训练,得到所述第一时长预测模型。8.根据权利要求6所述的方法,其特征在于,所述对获取的原始音频进行预处理,得...
【专利技术属性】
技术研发人员:陈崇明,
申请(专利权)人:TCL科技集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。