合成语音的说话风格的交互式修改制造技术

技术编号：43753423 阅读：23 留言：0更新日期：2024-12-20 13:10

提供对文本到语音(TTS)系统的说话风格的控制，而不一定要求TTS转换过程的训练(例如，用于转换的ANN)考虑训练数据的说话风格。例如，TTS系统可以允许调整说话风格的特征，例如语速、可感知的“善意”程度、平均音高、音高变化和停顿持续时间。在一些示例中，语音设计器可以具有多个独立的控件，这些控件可以改变相应的特征，而不一定改变其它特征。一旦设计器基于这些可控特征配置了所需的整体说话风格，TTS系统就可以被配置为使用该说话风格来部署TTS系统。例如，TTS系统可用于语音助手(如车载语音助手)中的音频输出。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本专利技术涉及语音合成，更具体地说，涉及语音合成系统的说话风格的交互式修改。

技术介绍

1、语音合成，也称为文本到语音(tts)转换，涉及接收待说出(即合成)的文本输入的表示，例如，以单词序列或子单词单元的形式，并将该输入表示转换为音频输出的表示，例如，以音频波形的形式或作为时频能量表示(“声谱图”)，以呈现给听众来传达输入文本。可以使用各种方法，包括依赖于训练数据的技术，训练数据包括用于确定参数化转换的配置参数值(即“训练”)的文本输入和相应音频输出的成对表示。例如，人工神经网络(ann)可以用作执行文本到语音转换的参数化转换。在某些实现中，如果所有训练数据都来自具有特定说话风格的单个说话者，则生成的tts系统将表现出相同的说话风格。

2、一些方法利用包括不同说话风格和/或来自不同说话者的子集的训练数据。一些方法使用每个子集的表示来允许在转换文本时选择这些风格或说话者之一的表示(例如，通过向转换过程提供额外的输入)。也就是说，转换过程的输入包括待转换的文本的表示和待再现(即复制或“克隆”)的说话者或风格的表示。一些方法允许分析不在训练数据中的新语音样本，以确定用于tts转换的该新样本的表示。

3、已经提出了对合成语音风格的特定方面的控制，例如，通过在参数化变换的训练时明确考虑这些特征来控制韵律特性(例如音高、音量和语速的变化)。

技术实现思路

1、在一般方面，本文所述的方法提供了对tts系统的说话风格的控制，而不一定要求tts转换过程的训练(例如，用于转换

2、本文所述的方法提供了优于现有技术的优点。首先，可以实现风格的连续性，而不需要从tts训练数据中表示的一组风格中进行选择。其次，语音设计器能够交互式地调整风格直到风格接近所需，而不需要进一步的录音或训练tts系统。第三，语音设计器获得的风格可以被约束为保持在训练集中包含的风格分布附近，这意味着调谐后的语音输出听起来仍然很自然。例如，语速的增加可能会导致发音精度的降低，其降低程度与人类说话者显示的程度相同。

3、在一个方面，通常，一种用于配置语音合成(也称为“文本到语音”(tts))系统的说话风格的方法包括根据多个可配置参数的值配置总结单元和合成单元。例如，这些可配置参数是从第一组训练项目中确定的，每个项目包括文本表示和相应的音频表示。这种确定可以称为“训练”总结单元和合成单元。将此训练与其它步骤分开的优点是，第一组训练项目不一定保留，可配置参数可以保持固定。

4、第二组训练项目用于确定每个项目的风格汇总，其作为训练项目音频表示的总结单元的输出，并确定训练项目的多个测量值作为测量单元的输出，每个测量值是项目的文本表示和该项目的音频表示中的至少一个的函数。第二组训练项目可以与第一组训练项目相同，但可以是单独的一组，即使在总结单元和合成单元的训练之后也可以收集。测量值和总结单元的输出之间的关系用于确定风格基础。

5、接受说话风格的多个特性目标，并使用风格基础对这些特性目标进行变换以产生目标风格特征。根据目标风格特征配置语音合成系统。有利地，由特性目标控制的调整语音合成系统的输出的说话风格不需要对合成单元进行再训练。

6、这些方面可以包括以下一个或更多个相互兼容的特征的组合。

7、每个特性目标对应于合成语音的不同特性。例如，特性目标包括来自由音高、音高变化、音量和语速组成的组中的至少一个特性(或两个或更多个特性)。

8、选择风格基础，使得随着第一特性目标的变化，与其它特性目标相对应的合成语音的特性变化被最小化。

9、被接受的特性目标的范围被限制为与第二训练集中的范围相对应。

10、总结单元被配置为接受音频输入，并产生所述输入的固定长度表示作为风格汇总。在某些情况下，使用序列到向量的变换(例如递归神经网络(rnn))。有利地，风格汇总的分量不必与语音特性有明显的关系，即使作为一个整体，这些特性被编码在可能的风格汇总的空间中。

11、该方法还包括使用配置的语音合成系统来计算合成发音，并向用户呈现合成发音。响应于呈现，从用户接收特性目标的修改。例如，重复这些步骤，直到用户确定已经实现了所需的整体语音特征。有利地，当每个目标特性输入控制输出说话风格中的不同特性时，用户可以快速集中到所需的自然说话风格。

12、使用测量值和总结单元的输出之间的关系来确定风格基础包括：确定风格基础，用于从特性目标到风格特征的计算映射。例如，确定风格基础包括：计算从特性目标的向量表示到风格特征的向量表示的线性(或等效仿射)映射。测量值和风格特征的相关性可用于确定映射。

13、可选地，使用风格基础将特性目标变换为目标风格特征包括使用与参考风格对应的参考风格特征。通过这种方式，特性目标表示与参考风格的偏差。例如，参考风格可以是具有接近用户所需风格的语音风格的语音的风格特征。

14、在另一方面，一般而言，语音设计系统包括：风格修改单元，用于向用户提供用户接口，风格修改组件通过该用户接口从用户接收调整值，并响应于调整值产生风格嵌入。该系统还包括：合成单元，其被配置为从风格修改组件接收风格嵌入，并根据风格嵌入产生用于呈现给用户的音频信号。风格修改单元可配置有风格基础，该风格基础用于变换调整值以生成风格嵌入。风格修改单元可以可选地根据初始嵌入进一步配置，在这种情况下，风格修改单元根据相对于初始嵌入的调整值产生系统嵌入。

15、语音设计系统还可以包括：基础计算单元，其被配置为使用训练项目来确定风格基础。这种确定包括使用训练项目的每个项目的波形表示以及基于所述项目的文本表示和波形表示中的至少一个的测量值来确定风格基础。

16、本专利技术的其它特征和优点从以下描述和权利要求中显而易见。

本文档来自技高网...

【技术保护点】

1.一种用于配置语音合成系统的说话风格的方法：

2.根据权利要求1所述的方法，其中，每个特性目标对应于合成语音的不同特性。

3.根据权利要求2所述的方法，其中，所述特性目标包括来自由音高、音高变化、音量和语速组成的组中的至少一个特性。

4.根据权利要求2所述的方法，其中，选择所述风格基础，使得随着第一特性目标的变化，与其它特性目标对应的合成语音的特性变化被最小化。

5.根据权利要求1所述的方法，其中，所接受的特性目标的范围被限制为对应于第二训练集中的范围。

6.根据权利要求1所述的方法，还包括从第一组训练项目(110)中确定所述可配置参数，每个项目包括文本表示和相应的音频表示。

7.根据权利要求1所述的方法，其中，所述总结单元(130)被配置为接受音频输入，并产生所述输入的固定长度表示作为风格汇总。

8.根据权利要求1所述的方法，还包括：

9.根据权利要求1所述的方法，其中，使用所述测量值和所述总结单元的输出之间的关系来确定风格基础包括：确定所述风格基础，用于从特性目标到风格特征的计算映射。

10.根据权利要求9所述的方法，其中，确定所述风格基础包括：计算从特性目标的向量表示到风格特征的向量表示的线性映射。

11.根据权利要求9所述的方法，还包括：使用所述测量值和所述风格特征的相关性来确定映射。

12.根据权利要求1所述的方法，其中，使用所述风格基础将所述特性目标变换为目标风格特征包括使用与参考风格对应的参考风格特征，其中，所述特性目标表示与参考风格的偏差。

13.一种语音设计系统(300)，包括：

14.根据权利要求13所述的语音设计系统，其中，根据初始嵌入(331)对所述风格修改单元进行配置，其中，所述风格修改单元根据相对于所述初始嵌入的所述调整值产生系统嵌入。

15.根据权利要求13所述的语音设计系统，还包括：

...

【技术特征摘要】
【国外来华专利技术】