一种语音处理方法及相关设备技术

技术编号：34475330 阅读：10 留言：0更新日期：2022-08-10 08:50

一种语音处理方法，应用于歌声编辑领域，所述方法包括：获取原始语音以及第二文本；根据原始语音中非编辑语音的第一音高特征以及目标文本的信息，预测所述第二文本的第二音高特征；根据所述第二音高特征以及所述第二文本，通过神经网络得到所述第二文本对应的第一语音特征；根据所述第一语音特征，生成所述第二文本对应的目标编辑语音。本申请通过预测第二文本(待编辑文本)的音高特征，根据音高特征生成第二文本的第一语音特征，并基于第一语音特征生成第二文本对应目标编辑语音，使得歌声编辑前后的语音的音高特征相似，进而实现目标编辑语音的听感与原始语音的听感目标编辑语音的听感与原始语音的听感类似。音的听感与原始语音的听感类似。音的听感与原始语音的听感类似。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音处理方法及相关设备

[0001]本申请实施例涉及人工智能领域领域，尤其涉及一种语音处理方法及相关设备。

技术介绍

[0002]人工智能(artificial intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。
[0003]目前，语音编辑具有非常重要的实用意义。比如，在用户录制歌曲(例如清唱)等场景下，经常会由于口误而导致语音中的某些内容出错。该种情况下，语音编辑便可帮助用户快速地修正原始歌声中的错误内容，生成校正后的语音。常用的语音编辑方法是通过预先构建含有大量语音片段的数据库，从数据库中获取发音单元的片段，并用该片段替换原始语音中的错误片段，进而生成校正后的语音。
[0004]然而，上述语音编辑的方式依赖数据库中语音片段的多样性，在数据库中语音片段较少的情况下，会导致校正后的语音(例如用户的歌声)的听感较差。

技术实现思路

[0005]本申请实施例提供了一种语音处理方法及相关设备，可以实现编辑歌声的听感与原始语音的听感类似，提升用户体验。
[0...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法，其特征在于，所述方法包括：获取原始语音以及第二文本，所述第二文本为目标文本中除了第一文本以外的文本，所述目标文本与所述原始语音对应的原始文本都包括所述第一文本，所述第一文本在所述原始语音中对应的语音为非编辑语音；根据所述非编辑语音的第一音高(pitch)特征以及所述目标文本的信息，预测所述第二文本的第二音高特征；根据所述第二音高特征以及所述第二文本，通过神经网络得到所述第二文本对应的第一语音特征；根据所述第一语音特征，生成所述第二文本对应的目标编辑语音。2.根据权利要求1所述的方法，其特征在于，所述原始语音的内容为用户的歌声。3.根据权利要求1至3任一所述的方法，其特征在于，所述根据所述非编辑语音的第一音高(pitch)特征以及所述第二文本包括：根据所述非编辑语音的第一音高(pitch)特征、所述目标文本的信息以及所述非编辑语音的第二语音特征；所述第二语音特征携带有如下信息的至少一种：所述非编辑语音的部分语音帧或全部语音帧；所述非编辑语音的声纹特征；所述非编辑语音的音色特征；所述非编辑语音的韵律特征；以及，所述非编辑语音的节奏特征。4.根据权利要求1至4任一所述的方法，其特征在于，所述目标文本的信息，包括：所述目标文本中各个音素的文本嵌入(text embedding)。5.根据权利要求1至5任一所述的方法，其特征在于，所述目标文本为将所述第二文本插入到所述第一文本得到的文本；或者，所述目标文本为将所述第一文本的第一部分文本删除得到的文本，所述第二文本为与所述第一部分文本相邻的文本；所述根据所述非编辑语音的第一音高(pitch)特征以及所述目标文本的信息，预测所述第二文本的第二音高特征，包括：将所述非编辑语音的第一音高(pitch)特征以及所述目标文本的信息进行融合，以得到第一融合结果；将所述第一融合结果输入到第二神经网络，得到所述第二文本的第二音高特征。6.根据权利要求1至5任一所述的方法，其特征在于，所述目标文本为将所述第一文本中的第二部分文本替换为所述第二文本得到的；所述根据所述非编辑语音的第一音高(pitch)特征以及所述目标文本的信息，预测所述第二文本的第二音高特征，包括：将所述非编辑语音的第一音高(pitch)特征输入到第三神经网络，得到初始音高特征，所述第一初始音高特征包括多个帧中每个帧的音高；将所述目标文本的信息输入到第四神经网络，得到所述第二文本的发音特征，所述发音特征用于指示所述初始音高特征包括的多个帧中各个帧是否发音；将所述初始音高特征和所述发音特征进行融合，以得到所述第二文本的第二音高特征。
7.根据权利要求1至6任一所述的方法，其特征在于，所述方法还包括：根据所述非编辑语音中各个音素的帧数以及所述目标文本的信息，预测所述第二文本中各个音素的帧数。8.根据权利要求1至7任一所述的方法，其特征在于，所述第一音高(pitch)特征，包括：所述非编辑语音的多帧中的每一帧的音高特征；所述第二音高特征，包括：所述目标编辑语音的多帧中的每一帧的音高特征。9.根据权利要求7或8所述的方法，其特征在于，所述根据所述非编辑语音中各个音素的帧数以及所述目标文本的信息，包括：根据所述非编辑语音中各个音素的帧数、所述目标文本的信息以及所述非编辑语音的第二语音特征。10.根据权利要求1至9任一所述的方法，其特征在于，所述方法还包括：获取所述第二文本在所述目标文本中的位置；基于所述位置拼接所述目标编辑语音与所述非编辑语音得到所述目标文本对应的目标语音。11.一种语音处理装置，其特征在于，所述装置包括：获取模块，用于获取原始语音以及第二文本，所述第二文本为目标文本中除了第一文本以外的文本，所述目标文本与所述原始语音对应的原始文本都包括所述第一文本，所述第一文本在所述原始语音中对应的语音为非编辑语音；音高预测模块，用于根据所述非编辑语音的第一音高(p...

【专利技术属性】
技术研发人员：邓利群，朱杰明，张立超，赵洲，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人