使用离散且经分解的表示的无文本语音情感转换制造技术

技术编号：44160150 阅读：3 留言：0更新日期：2025-01-29 10:30

在一个实施例中，一种方法包括：访问与源情感相对应的语音信号；基于该语音信号生成内容单元；基于目标情感，生成内容单元的改变后内容单元；基于目标情感，确定各改变后内容单元中的每个改变后内容单元的相应持续时间；基于目标情感和相应改变后持续时间，生成各改变后内容单元中的每个改变后内容单元的相应音调曲线；以及基于目标情感、与说话者相关联的语音特性、基于其相应改变后持续时间的各改变后内容单元、以及各改变后内容单元的音调曲线，生成与目标情感相对应的改变后语音信号。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本公开总体上涉及语音处理，并且具体地，涉及用于语音处理的硬件和软件。

技术介绍

1、语音处理是对语音信号和信号处理方法的研究。信号通常是以数字表示形式被处理的，因此语音处理可以看作是应用于语音信号的数字信号处理的特例。语音处理的各方面包括对语音信号的获取、操纵、存储、传递和输出。

2、语音翻译是将会话中说出的短语立即翻译成第二种语言并用第二种语言大声说出的过程。这与短语翻译不同，在短语翻译中，系统仅翻译已被手动输入到该系统中的固定且有限的一组短语。语音翻译技术使不同语言的说话者能够进行沟通。因此，在科学、跨文化交流和全球商业方面，语音翻译技术对人类具有巨大的价值。

技术实现思路

1、根据一方面，提供了一种方法，该方法包括：由一个或多个计算系统：访问与源情感相对应的语音信号；基于该语音信号生成多个内容单元；基于目标情感，生成该多个内容单元的多个改变后内容单元；基于目标情感，确定该多个改变后内容单元中的每个改变后内容单元的相应持续时间；基于目标情感和相应改变后持续时间，生成该多个改变后内容单元中的每个改变后内容单元的相应音调曲线；以及基于目标情感、与说话者相关联的语音特性、基于其相应改变后持续时间的多个改变后内容单元、以及该多个改变后内容单元的多个音调曲线，生成与目标情感相对应的改变后语音信号。

2、生成该多个改变后内容单元可以包括：翻译与语音信号相关联的非语言发声，同时保留与语音信号相关联的词汇内容。

3、源情感或目标情感可以是基于以下中的一者或多

4、语音信号可以是基于音频波形的。生成该多个内容单元可以包括将编码器应用于该音频波形。

5、编码器可以输出语音信号的连续频谱表示。该方法还可以包括：基于与所述语音信号相关联的词汇量，将聚类算法应用于所述连续频谱表示。

6、生成该多个改变后内容单元可以包括以下中的一者或多者：改变该多个内容单元中的一内容单元；将一内容单元添加到该多个内容单元；或从该多个内容单元中删除一内容单元。

7、语音信号可以与说话者相关联。该方法还可以包括：基于该语音信号，生成该说话者的语音特性。

8、生成该多个改变后内容单元可以是基于序列到序列模型(sequence-to-sequencemodel)的。

9、序列到序列模型可以包括：在包括所述源情感的多个源情感之间共享的一个编码器；以及在包括所述目标情感的多个目标情感之间共享的一个解码器。

10、序列到序列模型可以包括：分别专用于包括所述源情感的多个源情感的多个编码器。序列到序列模型可以包括：分别专用于包括所述目标情感的多个目标情感的多个解码器。

11、序列到序列模型可以包括：在包括所述源情感的多个源情感之间共享的一个编码器。序列到序列模型可以包括：分别专用于包括所述目标情感的多个目标情感的多个解码器。

12、根据另一方面，提供了一种或多种计算机可读非暂态存储介质，该一种或多种计算机可读非暂态存储介质包含软件，该软件在被执行时能够操作以执行以上所陈述的方法。

13、根据又一方面，提供了一种系统，该系统包括：一个或多个处理器；以及非暂态存储器，该非暂态存储器耦接到该一个或多个处理器，该非暂态存储器包括能够由该一个或多个处理器执行的指令，该一个或多个处理器在执行所述指令时能够操作以执行以上所陈述的方法。

14、在特定实施例中，语音处理系统可以使用用于改变语音信号中的情感的模型。在语音中带有情感的情况下，自动语音识别(automatic speech recognition，asr)的错误率通常较高。因此，通过从语音信号中去除情感，该模型可以改进自动语音识别。另一方面，该模型还可以将期望的情感添加进语音信号中以生成有情感表现力的语音信号，以用于训练能处理带有情感的语音信号的语音识别模型。可以基于概率模型来学习在哪里添加期望的情感(例如，打哈欠)。该模型可以将改变情感视为机器翻译任务，其中，输入是带有源情感的语音话语，而输出是带有目标情感的相同话语。该模型可以将语音信号分解成离散的学习表示，这些离散的学习表示包括语音学内容单元、韵律特征、说话者和情感。然后，该模型可以通过将语音学内容单元翻译为目标情感来修改语音内容，并基于这些单元来预测韵律特征。最后，可以通过将神经声码器应用于所预测的表示来生成目标情感的语音波形。尽管本公开描述了以特定方式进行的特定语音处理，但是本公开考虑了以任何合适的方式进行的任何合适的语音处理。

15、在特定实施例中，语音处理系统可以访问与源情感相对应的语音信号。然后，语音处理系统可以基于该语音信号生成多个内容单元。在特定实施例中，语音处理系统可以基于目标情感，生成该多个内容单元的多个改变后内容单元。然后，语音处理系统可以基于目标情感，确定该多个改变后内容单元中的每个改变后内容单元的相应持续时间。然后，语音处理系统可以基于目标情感和相应改变后持续时间，生成该多个改变后内容单元中的每个改变后内容单元的相应音调曲线。在特定实施例中，语音处理系统还可以基于目标情感、与说话者相关联的语音特性、基于其相应改变后持续时间的多个改变后内容单元、以及该多个改变后内容单元的多个音调曲线，生成与目标情感相对应的改变后语音信号。

16、本文所公开的各实施例仅是示例，并且本公开的范围不限于这些实施例。特定实施例可以包括本文所公开的各实施例中的部件、元件、特征、功能、操作或步骤中的全部、一些，或者可以不包括本文所公开的各实施例中的部件、元件、特征、功能、操作或步骤。根据本专利技术的各实施例在所附的针对方法、存储介质、系统和计算机程序产品的权利要求中特别公开，其中，在一个权利要求类别(例如，方法)中所提到的任何特征也可以在另一个权利要求类别(例如，系统)中被要求保护。所附权利要求书中的从属关系或回引仅出于形式原因而选择。然而，由于有意回引任何先前的权利要求(特别是多项从属关系)而产生的任何主题也可以被要求保护，使得多个权利要求及其多个特征的任何组合无论在所附权利要求书中所选择的从属关系如何、都被公开且可以被要求保护。可被要求保护的主题不仅包括所附权利要求书中所陈述的多个特征的多种组合，还包括权利要求书中的多个特征的任何其它组合，其中，在权利要求书中所提到的每个特征可以与权利要求书中的任何其它特征或其它特征的组合进行组合。此外，本文所描述或所描绘的任何实施例和任何特征可以在单独的权利要求中被要求保护，和/或在与本文所描述或所描绘的任何实施例或任何特征的任何组合中或在与所附权利要求书中的任何特征的任何组合中被要求保护。

17、将理解的是，本文中描述为适合于结合到本公开的一个或多个方面或实施例中的任何特征旨在在本公开的任何和所有的方面和实施例中具有普遍性。本领域技术人员可以根据本公开的说明书、权利要求书和附图理解本公开的其它方面。前述概括性描述和以下详细描述仅是示例性和解释性的，并且不对权利要求进行限制。

本文档来自技高网...

【技术保护点】

1.一种方法，包括：由一个或多个计算系统：

2.根据权利要求1所述的方法，其中，生成所述多个改变后内容单元包括：翻译与所述语音信号相关联的非语言发声，同时保留与所述语音信号相关联的词汇内容。

3.根据权利要求1或2所述的方法，其中，所述源情感或所述目标情感是基于以下中的一者或多者的：韵律特征；说话风格；或非语言发声。

4.根据任一项前述权利要求所述的方法，其中，所述语音信号是基于音频波形的，并且其中，生成所述多个内容单元包括将编码器应用于所述音频波形。

5.根据权利要求4所述的方法，其中，所述编码器输出所述语音信号的连续频谱表示，其中，所述方法还包括：

6.根据任一项前述权利要求所述的方法，其中，生成所述多个改变后内容单元包括以下中的一者或多者：改变所述多个内容单元中的一内容单元；将一内容单元添加到所述多个内容单元；或从所述多个内容单元中删除一内容单元。

7.根据任一项前述权利要求所述的方法，其中，所述语音信号与所述说话者相关联，其中，所述方法还包括：

8.根据任一项前述权利要求所述的方法，其中，

9.根据权利要求8所述的方法，其中，所述序列到序列模型包括：在包括所述源情感的多个源情感之间共享的一个编码器；以及在包括所述目标情感的多个目标情感之间共享的一个解码器。

10.根据权利要求8所述的方法，其中，所述序列到序列模型包括：分别专用于包括所述源情感的多个源情感的多个编码器；并且其中，所述序列到序列模型包括：分别专用于包括所述目标情感的多个目标情感的多个解码器。

11.根据权利要求8所述的方法，其中，所述序列到序列模型包括：在包括所述源情感的多个源情感之间共享的一个编码器；并且其中，所述序列到序列模型包括：分别专用于包括所述目标情感的多个目标情感的多个解码器。

12.一种或多种计算机可读非暂态存储介质，所述一种或多种计算机可读非暂态存储介质包含软件，所述软件在被执行时能够操作以执行根据任一项前述权利要求所述的方法。

13.一种系统，包括：一个或多个处理器；以及非暂态存储器，所述非暂态存储器耦接到所述一个或多个处理器，所述非暂态存储器包括能够由所述一个或多个处理器执行的指令，所述一个或多个处理器在执行所述指令时能够操作以执行根据权利要求1至11中任一项所述的方法。

...

【技术特征摘要】
【国外来华专利技术】

1.一种方法，包括：由一个或多个计算系统：

3.根据权利要求1或2所述的方法，其中，所述源情感或所述目标情感是基于以下中的一者或多者的：韵律特征；说话风格；或非语言发声。

4.根据任一项前述权利要求所述的方法，其中，所述语音信号是基于音频波形的，并且其中，生成所述多个内容单元包括将编码器应用于所述音频波形。

5.根据权利要求4所述的方法，其中，所述编码器输出所述语音信号的连续频谱表示，其中，所述方法还包括：

7.根据任一项前述权利要求所述的方法，其中，所述语音信号与所述说话者相关联，其中，所述方法还包括：

8.根据任一项前述权利要求所述的方法，其中，生成所述多个改变后内容单元是基于序列到序列模型的。...

【专利技术属性】
技术研发人员：费利克斯·克鲁克，尤塞夫·莫德切·阿迪，
申请(专利权)人：元平台技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人