一种语音处理方法及相关设备技术

技术编号:34475330 阅读:10 留言:0更新日期:2022-08-10 08:50
一种语音处理方法,应用于歌声编辑领域,所述方法包括:获取原始语音以及第二文本;根据原始语音中非编辑语音的第一音高特征以及目标文本的信息,预测所述第二文本的第二音高特征;根据所述第二音高特征以及所述第二文本,通过神经网络得到所述第二文本对应的第一语音特征;根据所述第一语音特征,生成所述第二文本对应的目标编辑语音。本申请通过预测第二文本(待编辑文本)的音高特征,根据音高特征生成第二文本的第一语音特征,并基于第一语音特征生成第二文本对应目标编辑语音,使得歌声编辑前后的语音的音高特征相似,进而实现目标编辑语音的听感与原始语音的听感目标编辑语音的听感与原始语音的听感类似。音的听感与原始语音的听感类似。音的听感与原始语音的听感类似。

【技术实现步骤摘要】
一种语音处理方法及相关设备


[0001]本申请实施例涉及人工智能领域领域,尤其涉及一种语音处理方法及相关设备。

技术介绍

[0002]人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。
[0003]目前,语音编辑具有非常重要的实用意义。比如,在用户录制歌曲(例如清唱)等场景下,经常会由于口误而导致语音中的某些内容出错。该种情况下,语音编辑便可帮助用户快速地修正原始歌声中的错误内容,生成校正后的语音。常用的语音编辑方法是通过预先构建含有大量语音片段的数据库,从数据库中获取发音单元的片段,并用该片段替换原始语音中的错误片段,进而生成校正后的语音。
[0004]然而,上述语音编辑的方式依赖数据库中语音片段的多样性,在数据库中语音片段较少的情况下,会导致校正后的语音(例如用户的歌声)的听感较差。

技术实现思路

[0005]本申请实施例提供了一种语音处理方法及相关设备,可以实现编辑歌声的听感与原始语音的听感类似,提升用户体验。
[0006]第一方面,本申请提供了一种语音处理方法,可以应用于用户录制短视频、老师录制授课语音等场景。该方法可以由语音处理设备执行,也可以由语音处理设备的部件(例如处理器、芯片、或芯片系统等)执行。其中,该语音处理设备可以是终端设备也可以是云端设备,所述方法包括:获取原始语音以及第二文本,所述第二文本为目标文本中除了第一文本以外的文本,所述目标文本与所述原始语音对应的原始文本都包括所述第一文本,所述第一文本在所述原始语音中对应的语音为非编辑语音;根据所述非编辑语音的第一音高(pitch)特征以及所述目标文本的信息,预测所述第二文本的第二音高特征;根据所述第二音高特征以及所述第二文本,通过神经网络得到所述第二文本对应的第一语音特征;根据所述第一语音特征,生成所述第二文本对应的目标编辑语音。本申请通过预测第二文本(待编辑文本)的音高特征,根据音高特征生成第二文本的第一语音特征,并基于第一语音特征生成第二文本对应目标编辑语音,使得歌声编辑前后的语音的音高特征相似,进而实现目标编辑语音的听感与原始语音的听感目标编辑语音的听感与原始语音的听感类似。
[0007]另外,获取第二文本的方式有多种,可以是直接获取第二文本;也可以是先获取位置信息(也可以理解为是标记信息,用于指示第二文本在目标文本中的位置),在根据位置
与目标文本获取第二文本,位置信息用于表示第二文本在目标文本中的位置;还可以是获取目标文本与原始文本(或者获取目标文本与原始语音,对原始语音进行识别得到原始文本),再基于原始文本与目标文本确定第二文本。
[0008]在一种可能的实现中,基于第二语音特征生成第二文本对应的目标编辑语音,包括:基于第二语音特征,通过声码器,生成目标编辑语音。
[0009]该种可能的实现方式中,根据声码器将第二语音特征转化为目标编辑语音,进而使得目标编辑语音具有与原始语音相近的语音特征,提升用户的听感。
[0010]在一种可能的实现中,所述原始语音的内容为用户的歌声,例如可以为用户清唱时录制的语音。
[0011]在一种可能的实现中,获取原始语音与第二文本,包括:接收终端设备发送的原始语音与第二文本;方法还包括:向终端设备发送目标编辑语音,目标编辑语音用于终端设备生成目标文本对应的目标语音。也可以理解为是交互场景,由云端设备进行复杂的计算操作,由终端设备执行简单的拼接操作,从终端设备处获取原始语音与第二文本,云端设备生成目标编辑语音之后,向终端设备发送目标编辑语音,再由终端设备进行拼接得到目标语音。
[0012]该种可能的实现方式中,在语音处理设备是云端设备的情况下,一方面,可以通过云端设备与终端设备的交互,由云端设备进行复杂的计算得到目标编辑语音并返给终端设备,可以减少终端设备的算力与存储空间。另一方面,可以根据原始语音中非编辑区域的语音特征生成修改文本对应的目标编辑语音,进而与非编辑语音生成目标文本对应的目标语音。
[0013]可选地,在第一方面的一种可能的实现方式中,上述步骤:获取原始语音与第二文本,包括:接收终端设备发送的原始语音与目标文本;方法还包括:基于非编辑语音与目标编辑语音生成目标文本对应的目标语音,向终端设备发送目标语音。
[0014]该种可能的实现方式中,接收终端设备发送的原始语音与目标文本,可以获取非编辑语音,并根据非编辑语音的第一语音特征生成第二文本对应的第二语音特征,进而根据声码器得到目标编辑语音,并拼接目标编辑语音与非编辑语音生成目标语音。相当于,处理过程都在语音处理设备,结果返回给终端设备。由云端设备进行复杂的计算得到目标语音并返给终端设备,可以减少终端设备的算力与存储空间。
[0015]在一种可能的实现中,所述根据所述非编辑语音的第一音高(pitch)特征以及所述第二文本包括:根据所述非编辑语音的第一音高(pitch)特征、所述目标文本的信息以及所述非编辑语音的第二语音特征;所述第二语音特征携带有如下信息的至少一种:所述非编辑语音的部分语音帧或全部语音帧;所述非编辑语音的声纹特征;所述非编辑语音的音色特征;所述非编辑语音的韵律特征;以及,所述非编辑语音的节奏特征。
[0016]其中,第一语音特征可以与第二语音特征的韵律、音色和/或信噪比等相同或相近,韵律可以反映出发音者的情感状态或讲话形式等,韵律泛指语调、音调、重音强调、停顿或节奏等特征。
[0017]在一种可能的实现中,第二语音特征携带有原始语音的声纹特征。其中,获取声纹特征的方式可以是直接获取,也可以是通过识别原始语音得到该声纹特征等。
[0018]该种可能的实现方式中,一方面,通过引入原始语音的声纹特征,使得后续生成的
第一语音特征也携带有该原始语音的声纹特征,进而提升目标编辑语音与原始语音的相近程度。另一方面,在发音者(或者用户)的数量为多个的情况下,引入声纹特征可以提升后续预测的语音特征更加与原始语音的发音者的声纹相似。
[0019]在一种可能的实现中,所述目标文本的信息,包括:
[0020]所述目标文本中各个音素的文本嵌入(text embedding)。
[0021]在一种可能的实现中,所述目标文本为将所述第二文本插入到所述第一文本得到的文本;或者,所述目标文本为将所述第一文本的第一部分文本删除得到的文本,所述第二文本为与所述第一部分文本相邻的文本;
[0022]所述根据所述非编辑语音的第一音高(pitch)特征以及所述目标文本的信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,其特征在于,所述方法包括:获取原始语音以及第二文本,所述第二文本为目标文本中除了第一文本以外的文本,所述目标文本与所述原始语音对应的原始文本都包括所述第一文本,所述第一文本在所述原始语音中对应的语音为非编辑语音;根据所述非编辑语音的第一音高(pitch)特征以及所述目标文本的信息,预测所述第二文本的第二音高特征;根据所述第二音高特征以及所述第二文本,通过神经网络得到所述第二文本对应的第一语音特征;根据所述第一语音特征,生成所述第二文本对应的目标编辑语音。2.根据权利要求1所述的方法,其特征在于,所述原始语音的内容为用户的歌声。3.根据权利要求1至3任一所述的方法,其特征在于,所述根据所述非编辑语音的第一音高(pitch)特征以及所述第二文本包括:根据所述非编辑语音的第一音高(pitch)特征、所述目标文本的信息以及所述非编辑语音的第二语音特征;所述第二语音特征携带有如下信息的至少一种:所述非编辑语音的部分语音帧或全部语音帧;所述非编辑语音的声纹特征;所述非编辑语音的音色特征;所述非编辑语音的韵律特征;以及,所述非编辑语音的节奏特征。4.根据权利要求1至4任一所述的方法,其特征在于,所述目标文本的信息,包括:所述目标文本中各个音素的文本嵌入(text embedding)。5.根据权利要求1至5任一所述的方法,其特征在于,所述目标文本为将所述第二文本插入到所述第一文本得到的文本;或者,所述目标文本为将所述第一文本的第一部分文本删除得到的文本,所述第二文本为与所述第一部分文本相邻的文本;所述根据所述非编辑语音的第一音高(pitch)特征以及所述目标文本的信息,预测所述第二文本的第二音高特征,包括:将所述非编辑语音的第一音高(pitch)特征以及所述目标文本的信息进行融合,以得到第一融合结果;将所述第一融合结果输入到第二神经网络,得到所述第二文本的第二音高特征。6.根据权利要求1至5任一所述的方法,其特征在于,所述目标文本为将所述第一文本中的第二部分文本替换为所述第二文本得到的;所述根据所述非编辑语音的第一音高(pitch)特征以及所述目标文本的信息,预测所述第二文本的第二音高特征,包括:将所述非编辑语音的第一音高(pitch)特征输入到第三神经网络,得到初始音高特征,所述第一初始音高特征包括多个帧中每个帧的音高;将所述目标文本的信息输入到第四神经网络,得到所述第二文本的发音特征,所述发音特征用于指示所述初始音高特征包括的多个帧中各个帧是否发音;将所述初始音高特征和所述发音特征进行融合,以得到所述第二文本的第二音高特征。
7.根据权利要求1至6任一所述的方法,其特征在于,所述方法还包括:根据所述非编辑语音中各个音素的帧数以及所述目标文本的信息,预测所述第二文本中各个音素的帧数。8.根据权利要求1至7任一所述的方法,其特征在于,所述第一音高(pitch)特征,包括:所述非编辑语音的多帧中的每一帧的音高特征;所述第二音高特征,包括:所述目标编辑语音的多帧中的每一帧的音高特征。9.根据权利要求7或8所述的方法,其特征在于,所述根据所述非编辑语音中各个音素的帧数以及所述目标文本的信息,包括:根据所述非编辑语音中各个音素的帧数、所述目标文本的信息以及所述非编辑语音的第二语音特征。10.根据权利要求1至9任一所述的方法,其特征在于,所述方法还包括:获取所述第二文本在所述目标文本中的位置;基于所述位置拼接所述目标编辑语音与所述非编辑语音得到所述目标文本对应的目标语音。11.一种语音处理装置,其特征在于,所述装置包括:获取模块,用于获取原始语音以及第二文本,所述第二文本为目标文本中除了第一文本以外的文本,所述目标文本与所述原始语音对应的原始文本都包括所述第一文本,所述第一文本在所述原始语音中对应的语音为非编辑语音;音高预测模块,用于根据所述非编辑语音的第一音高(p...

【专利技术属性】
技术研发人员:邓利群朱杰明张立超赵洲
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1