一种歌仔戏唱腔合成方法技术

技术编号：43878383 阅读：8 留言：0更新日期：2024-12-31 19:01

本发明专利技术公开了一种歌仔戏唱腔合成方法，涉及歌仔戏唱腔合成领域，解决了现有歌仔戏合成中，缺乏标注数据，导致数据匮乏，且语音合成模型及歌声合成模型对数据的局部特征建模不充分的问题，现提出如下方案，其包括利用神经音频编解码器EnCodec的强大能力从EnCodec的码本中采样出与编码器输出特征相似的隐表征，并重建为音频，我们成功地扩展了歌仔戏数据集，为模型训练提供了更多的数据支持；提出歌仔戏合成模型FG‑GAN，通过提出GConformer模块，在Conformer架构的基础上提出分组深度可分离卷积模块，扩大了模型对谱图的感受野，从而增强了模型对局部特征的捕捉能力。此外，FG‑GAN还提出了一种基于流模型的帧级别隐表征建模模块，以更好地拟合同一音素或音高内音频的变化。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及歌仔戏唱腔合成领域，尤其涉及一种歌仔戏唱腔合成方法。

技术介绍

1、歌仔戏有着悠久的历史渊源，歌仔戏最早起源于宋元时期的闽南地区，后传入台湾等地区，并在这些地方得到了发展和传承，被称为“闽南戏”的一种。歌仔戏经过数百年的演变和发展，融合了音乐、歌唱、舞蹈、戏剧、说唱等元素，形成了独特的表演风格和艺术特色。歌仔戏通常在舞台上表演，由一名或多名演员扮演各种角色，演员们通过唱、念、做、打等形式来表现剧情，并配以精美的服饰、道具和布景，以及特定的音乐伴奏。在表演过程中，演员们会使用特殊的台词和歌唱方式，如念白、唱词、吟唱等，以营造出戏曲独特的韵味和氛围。

2、歌仔戏承载了中国福建地区的传统文化，融合了福建、客家、汉人等不同族群的艺术元素。歌仔戏最早起源于福建地区，因此福建文化元素在其中占据重要地位。福建的传统音乐、戏曲、歌唱方式等都对歌仔戏的形成和发展产生了深远影响。在福建地区，客家人是一个重要的民族群体，其文化元素也深深融入到歌仔戏中。例如，在一些歌仔戏剧目中，可以看到客家文化的特点，如方言、服饰、习俗等。作为中国南方地区的主要民族，汉族文化在歌仔戏中也占有重要地位。汉族的传统音乐、舞蹈、戏曲表演方式等都为歌仔戏提供了丰富的表现形式和艺术元素，随着历史的变迁，外来文化也渐渐融入到了歌仔戏中，包括了一些少数民族的音乐、舞蹈、戏剧形式等，丰富了歌仔戏的艺术内涵和表现形式。作为一种优秀的民间艺术形式，歌仔戏起初是由民间艺人演出，后来逐渐成为专业演员的表演形式但依然保留了浓厚的民间色彩。

3、歌仔戏合成，

4、歌仔戏合成的研究可以有效的减少歌仔戏编排与创新的人工成本，从而在信息化，数字化的今天更好的对歌仔戏这一文化瑰宝进行传承与创新，因此针对歌仔戏特点的戏曲合成模型具有较高的研究价值和实际意义。现有的歌仔戏生成模型大多沿用语音合成或歌声合成的模型框架，但生成戏曲的效果差强人意，有以下主要原因：

5、一、是缺乏标注数据,已有歌仔戏数据集goat(gezioperaaudio-textalignmentdataset)总时长仅有4.5小时，且包含5位说话人，而较成熟的语音合成模型，例如fastspeech2，构建在ljspeech数据集上，为24小时左右的单说话人数据集，歌声合成数据集popcs包含6小时单说话人数据。相较之下，歌仔戏数据较为匮乏；

6、二、是语音合成模型及歌声合成模型对数据的局部特征建模不充分，当前戏曲合成模型往往修改自语音合成模型或歌声合成模型，歌声和语音相较戏曲而言音高变化较为平缓，音素间持续时长差异不大，因此语音合成与歌声合成模型即便并未对局部特征单独建模也能合成较好的音频。而戏曲的表现力比较丰富，其音高变化比语音合成或歌声合成更加多样，且音素的持续时长差异较大。例如在歌仔戏音频中，有时一个元音可能会持续相当长的时间(例如，几秒钟)。在这种情况下，元音可能不只是像它自己一样发音，一些相似但不同的元音可能会在它之前或之后发音。这表现在模型层面即我们应该更加关注数据的局部相关性，且在音素与谱图的对齐模块应该对隐表征进行比音素级更加细粒度的建模。因此提出一种歌仔戏唱腔合成方法。

技术实现思路

1、本专利技术的目的在于提供一种歌仔戏唱腔合成方法，解决了现有歌仔戏合成中，缺乏标注数据，导致数据匮乏，且语音合成模型及歌声合成模型对数据的局部特征建模也不充分的问题。

2、为实现上述目的，本专利技术提供如下技术方案：一种歌仔戏唱腔合成方法，包括以下步骤：

3、s1000：基于神经音频压缩模型encodec的数据增强方法：

4、(1)采用架构为编码器-量化器-解码器的神经音频压缩模型encodec，通过编码器将输入的音频压缩为隐表征即向量；

5、(2)通过残差矢量量化模块寻找8个码本中最相似的8个向量，然后通过提出的topk法及残差topk法从码本采样与原音频相似向量，将其加和，以此向量通过解码器重建音频作为增广数据；

6、(3)然后使用鉴别器组件将此重建的音频与原始音频进行比较。鉴别器测量两者之间的数值差异，称为鉴别器/生成器损失；

7、(4)鉴别器/生成器损失包括将重建的波形和梅尔谱图与原始波形和梅尔谱图进行比较，并评估损失以稳定编码器的输出，最终确保音频输出密切反映初始输入；

8、s2000：歌仔戏唱腔合成模型建立：

9、(1)提出戏曲生成模型fg-gan架构，其架构模型输入为(t，s，d，p)，其中t代表音素序列，s代表说话人身份，d代表音素持续时长，p代表音高序列；

10、(2)提出gconformer模块，修改conformer中的深度可分离卷积为分组深度可分离卷积，考虑了相邻帧的信息，同时将深度可分离卷积的一个卷积核负责一个通道，一个通道只被一个卷积核卷积，修改为分组卷积，这样在组内可以直接建模不同通道在相同空间位置上的信息，即相邻帧相邻通道的局部信息，从而扩大了深度可分离卷积在同一个conformer块内的感受野，以更好的重建梅尔谱图中的局部细节；

11、(3)将戏曲生成模型ftgan架构中的判别器用于判别器端进行建模，将修改后的conformer作为生成器端；

12、(4)迁移vits中的流模型，结合分组深度可分离卷积块应用于帧级别隐表征建模，以增强其表达能力。

13、优选的，s1000中所述编码器模型e由一个具有c个通道的1d卷积和一个核大小为7的b个卷积块组成，每个所述卷积块由一个残差单元和一个下采样层组成，下采样层由一个跨步卷积组成，其核大小k是跨步s的两倍；

14、所述残差单元包含两个卷积，核大小为3和一个跳过连接，每当降采样发生时，通道数量加倍；

15、所述卷积块之后是一个用于序列建模的两层lstm和一个核大小为7和d个输出通道的最终1d卷积层；

16、所述encodec使用c＝32,b＝4和(2,4,5,8)作为步进使用elu作为非线性激活函数，或者层归一化或权归一化，

17、所述解码器是编码器的逆过程，使用转置卷积代替跨步卷积，并与跨步在编码器中相反的顺序,输出最终单声道或立体声音频。

18、优选的，s1000中本文档来自技高网...

【技术保护点】

1.一种歌仔戏唱腔合成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种歌仔戏唱腔合成方法，其特征在于，S1000中所述编码器模型E由一个具有C个通道的1D卷积和一个核大小为7的B个卷积块组成，每个所述卷积块由一个残差单元和一个下采样层组成，下采样层由一个跨步卷积组成，其核大小K是跨步s的两倍；

3.根据权利要求2所述的一种歌仔戏唱腔合成方法，其特征在于，S1000中所述残差矢量量化包括将输入矢量投影到给定大小的码本中最近的条目上，残差矢量量化通过计算量化后的残差来改进这个过程，并使用第二个码本进一步量化它，以此类推。

4.根据权利要求3所述的一种歌仔戏唱腔合成方法，其特征在于，S1000中所述EnCodec经过大量数据的训练，其码本中存储了足够丰富的细粒度的隐表征，利用以上表征提出两种采样方法进行数据增强，包括topk法与残差topk法，topk法采样残差矢量量化中八个码本与原始向量相近的k个向量用来重建音频，残差topk法采样残差矢量量化中八个码本与残差后向量相近的k个向量用来重建音频。

5.根据权利要求1所述的一种

6.根据权利要求5所述的一种歌仔戏唱腔合成方法，其特征在于，所述Conformer包括前向传播块、多头自注意力模块和卷积块。

...

【技术特征摘要】

1.一种歌仔戏唱腔合成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种歌仔戏唱腔合成方法，其特征在于，s1000中所述编码器模型e由一个具有c个通道的1d卷积和一个核大小为7的b个卷积块组成，每个所述卷积块由一个残差单元和一个下采样层组成，下采样层由一个跨步卷积组成，其核大小k是跨步s的两倍；

3.根据权利要求2所述的一种歌仔戏唱腔合成方法，其特征在于，s1000中所述残差矢量量化包括将输入矢量投影到给定大小的码本中最近的条目上，残差矢量量化通过计算量化后的残差来改进这个过程，并使用第二个码本进一步量化它，以此类推。

4.根据权利要求3所述的一种歌仔戏唱腔合成方法，其特征在于，s1000中所述encodec经过大量数据的训练，其码本中存储了足够丰富的细粒度的隐表征，...

【专利技术属性】
技术研发人员：田雨奇，史晓东，
申请(专利权)人：厦门大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人