System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于大模型的语音风格表达切换系统技术方案_技高网

基于大模型的语音风格表达切换系统技术方案

技术编号:44162002 阅读:1 留言:0更新日期:2025-01-29 10:33
本申请提供了一种基于大模型的语音风格表达切换系统,涉及智能语音交互领域,其采用基于人工智能的数据处理技术来对原始语音信号进行基于梅尔频谱特征的提取、分块和嵌入编码处理以得到原始语音梅尔谱图图块嵌入编码特征的序列,对目标语音风格的自然语言描述进行语义编码处理以得到目标语音风格语义编码特征,然后将所述原始语音梅尔谱图图块嵌入编码特征的序列和所述目标语音风格语义编码特征进行跨模态交互优化编码得到的特征输入到训练完成的端对端模型以生成风格切换语音信号。这样,能够精准理解用户需求,使得切换后的语音风格更符合用户期望,同时通过精细化的处理,有助于使得切换后的语音风格更加自然流畅。

【技术实现步骤摘要】

本申请涉及智能语音交互领域,且更为具体地,涉及一种基于大模型的语音风格表达切换系统


技术介绍

1、语音风格表达切换指的是在人工智能语音交互系统中,能够让语音输出呈现出不同的风格特点。它涉及语音的语调、语速、音色特点、用词习惯等多方面要素的改变,旨在根据不同的使用场景、用户需求以及对话内容来提供与之适配的语音呈现方式。

2、传统方式在理解用户对于目标语音风格的期望上不够精准,仅依靠有限的预设风格选项让用户进行选择,这难以完全契合用户心中所想的独特语音风格要求,并且部分语音风格切换时存在切换后的语音风格显得生硬、不够自然的情况。

3、因此,期待一种优化的语音风格表达切换方案。


技术实现思路

1、为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于大模型的语音风格表达切换系统。

2、根据本申请的一个方面,提供了一种基于大模型的语音风格表达切换系统,其包括:语音信号数据采集模块,用于获取由麦克风采集的原始语音信号;目标语音风格数据采集模块,用于获取由用户输入的目标语音风格的自然语言描述;原始语音信号分析模块,用于对所述原始语音信号进行梅尔频谱特征提取和分析以得到原始语音梅尔谱图图块嵌入编码特征的序列;目标语音风格数据语义编码模块,用于对所述目标语音风格的自然语言描述进行语义编码以得到目标语音风格语义编码特征;跨模态特征交互优化模块,用于对所述原始语音梅尔谱图图块嵌入编码特征的序列和所述目标语音风格语义编码特征进行跨模态提示门引导的特征交互优化以得到语音风格调制下原始语音梅尔谱图图块语义编码特征的序列;风格切换语音信号生成模块,用于基于所述语音风格调制下原始语音梅尔谱图图块语义编码特征的序列,生成得到风格切换语音信号。

3、与现有技术相比,本申请提供的基于大模型的语音风格表达切换系统,其采用基于人工智能的数据处理技术来对原始语音信号进行基于梅尔频谱特征的提取、分块和嵌入编码处理以得到原始语音梅尔谱图图块嵌入编码特征的序列,对目标语音风格的自然语言描述进行语义编码处理以得到目标语音风格语义编码特征,然后将所述原始语音梅尔谱图图块嵌入编码特征的序列和所述目标语音风格语义编码特征进行跨模态交互优化编码得到的特征输入到训练完成的端对端模型以生成风格切换语音信号。这样,能够精准理解用户需求,使得切换后的语音风格更符合用户期望,同时通过精细化的处理,有助于使得切换后的语音风格更加自然流畅。

本文档来自技高网...

【技术保护点】

1.一种基于大模型的语音风格表达切换系统,其特征在于,包括:语音信号数据采集模块,用于获取由麦克风采集的原始语音信号;目标语音风格数据采集模块,用于获取由用户输入的目标语音风格的自然语言描述;原始语音信号分析模块,用于对所述原始语音信号进行梅尔频谱特征提取和分析以得到原始语音梅尔谱图图块嵌入编码特征的序列;目标语音风格数据语义编码模块,用于对所述目标语音风格的自然语言描述进行语义编码以得到目标语音风格语义编码特征;跨模态特征交互优化模块,用于对所述原始语音梅尔谱图图块嵌入编码特征的序列和所述目标语音风格语义编码特征进行跨模态提示门引导的特征交互优化以得到语音风格调制下原始语音梅尔谱图图块语义编码特征的序列;风格切换语音信号生成模块,用于基于所述语音风格调制下原始语音梅尔谱图图块语义编码特征的序列,生成得到风格切换语音信号。

2.根据权利要求1所述的基于大模型的语音风格表达切换系统,其特征在于,所述原始语音信号分析模块,包括:语音信号梅尔频谱特征提取单元,用于提取所述原始语音信号的梅尔频谱特征以得到原始语音梅尔频谱图;原始语音梅尔频谱图分块嵌入编码单元,用于对所述原始语音梅尔频谱图进行分块处理和嵌入编码以得到原始语音梅尔谱图图块嵌入编码向量的序列作为所述原始语音梅尔谱图图块嵌入编码特征的序列。

3.根据权利要求2所述的基于大模型的语音风格表达切换系统,其特征在于,所述目标语音风格数据语义编码模块,用于:将所述目标语音风格的自然语言描述输入语音风格语义编码器以得到目标语音风格语义编码特征向量作为所述目标语音风格语义编码特征。

4.根据权利要求3所述的基于大模型的语音风格表达切换系统,其特征在于,所述语音风格语义编码器为包含Bert模型的语音风格语义编码器。

5.根据权利要求4所述的基于大模型的语音风格表达切换系统,其特征在于,所述跨模态特征交互优化模块,包括:语音风格语义交互权重计算单元,用于基于所述目标语音风格语义编码特征向量和所述原始语音梅尔谱图图块嵌入编码向量的序列,计算得到语音风格调制下语义交互注意权重的序列;语音风格语义跨模态交互编码单元,用于将所述目标语音风格语义编码特征向量与所述原始语音梅尔谱图图块嵌入编码向量的序列进行跨模态交互以得到原始语音梅尔谱图交互局部特征向量的序列;语音风格语义跨模态特征交互优化单元,用于将所述语音风格调制下语义交互注意权重的序列和所述原始语音梅尔谱图交互局部特征向量的序列进行跨模态交互优化以得到语音风格调制下原始语音梅尔谱图图块语义编码特征向量的序列作为所述语音风格调制下原始语音梅尔谱图图块语义编码特征的序列。

6.根据权利要求5所述的基于大模型的语音风格表达切换系统,其特征在于,所述语义交互权重计算单元,用于:对所述目标语音风格语义编码特征向量进行线性变换以得到目标语音风格语义查询编码向量和目标语音风格语义值编码向量;将所述目标语音风格语义查询编码向量、所述目标语音风格语义值编码向量和所述原始语音梅尔谱图图块嵌入编码向量的序列中的各个原始语音梅尔谱图图块嵌入编码向量分别进行基于转换器的跨模态提示信息编码以得到语音风格调制下语义交互编码向量的序列;将所述语音风格调制下语义交互编码向量的序列进行基于信息门控筛选的解码处理以得到所述语音风格调制下语义交互注意权重的序列。

7.根据权利要求6所述的基于大模型的语音风格表达切换系统,其特征在于,所述语音风格语义跨模态交互编码单元,用于:将所述目标语音风格语义编码特征向量分别与所述原始语音梅尔谱图图块嵌入编码向量的序列中各个原始语音梅尔谱图图块嵌入编码向量进行按位置点乘以得到所述原始语音梅尔谱图交互局部特征向量的序列。

8.根据权利要求7所述的基于大模型的语音风格表达切换系统,其特征在于,所述风格切换语音信号生成模块,用于:将所述语音风格调制下原始语音梅尔谱图图块语义编码特征向量的序列输入训练完成的基于端对端大模型的语音风格切换引擎以得到所述风格切换语音信号。

...

【技术特征摘要】

1.一种基于大模型的语音风格表达切换系统,其特征在于,包括:语音信号数据采集模块,用于获取由麦克风采集的原始语音信号;目标语音风格数据采集模块,用于获取由用户输入的目标语音风格的自然语言描述;原始语音信号分析模块,用于对所述原始语音信号进行梅尔频谱特征提取和分析以得到原始语音梅尔谱图图块嵌入编码特征的序列;目标语音风格数据语义编码模块,用于对所述目标语音风格的自然语言描述进行语义编码以得到目标语音风格语义编码特征;跨模态特征交互优化模块,用于对所述原始语音梅尔谱图图块嵌入编码特征的序列和所述目标语音风格语义编码特征进行跨模态提示门引导的特征交互优化以得到语音风格调制下原始语音梅尔谱图图块语义编码特征的序列;风格切换语音信号生成模块,用于基于所述语音风格调制下原始语音梅尔谱图图块语义编码特征的序列,生成得到风格切换语音信号。

2.根据权利要求1所述的基于大模型的语音风格表达切换系统,其特征在于,所述原始语音信号分析模块,包括:语音信号梅尔频谱特征提取单元,用于提取所述原始语音信号的梅尔频谱特征以得到原始语音梅尔频谱图;原始语音梅尔频谱图分块嵌入编码单元,用于对所述原始语音梅尔频谱图进行分块处理和嵌入编码以得到原始语音梅尔谱图图块嵌入编码向量的序列作为所述原始语音梅尔谱图图块嵌入编码特征的序列。

3.根据权利要求2所述的基于大模型的语音风格表达切换系统,其特征在于,所述目标语音风格数据语义编码模块,用于:将所述目标语音风格的自然语言描述输入语音风格语义编码器以得到目标语音风格语义编码特征向量作为所述目标语音风格语义编码特征。

4.根据权利要求3所述的基于大模型的语音风格表达切换系统,其特征在于,所述语音风格语义编码器为包含bert模型的语音风格语义编码器。

5.根据权利要求4所述的基于大模型的语音风格表达切换系统,其特征在于,所述跨模态特征交互优化模块,包括:语音风格语义交互权重计算单元,用于基于所述目标语音风格语义编...

【专利技术属性】
技术研发人员:赵俊翁芳胜潘法昱
申请(专利权)人:西湖心辰杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1