System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于视觉风格特征的多样性增强协同语音动作生成系统技术方案_技高网

基于视觉风格特征的多样性增强协同语音动作生成系统技术方案

技术编号:44467155 阅读:9 留言:0更新日期:2025-03-04 17:39
本发明专利技术公开了基于视觉风格特征的多样性增强协同语音动作生成系统,所述系统包括:特征提取多样性增强模块将参考视频输入到3D人体姿态估计网络中以获得styleclips。通过引入额外的styleclips,可以获取更多的特征信息,从而增加动作的多样性。风格编码器多样性补偿模块利用具有附加注意力机制池化层的transformer风格编码器来有效提取styleclips的深度学习表示。最后,动作预测器多样性驱动模块采用交叉注意力机制,将MFCC和风格代码进行融合,在交叉条件自回归生成动作过程中进行影响,从而调节生成的动作来增加多样性。所述方法在保持动作自然度的同时,显著提高了生成动作的多样性。

【技术实现步骤摘要】

本专利技术属于语音驱动的动作生成领域,具体涉及基于视觉风格特征的多样性增强协同语音动作生成系统


技术介绍

1、头部、手部和身体动作是人类在交流时不可或缺的一部分,它们之间存在复杂而有规律的关联,可以增强语言的表达力,传递情感和态度,以及协调对话的流程。随着虚拟人物和机器人在教育、娱乐、医疗等领域的广泛应用,以及在信息传播中的重要性,如何让它们根据语音生成自然、适当且多样的动作,成为了一个重要且具有挑战性的研究问题。该问题涉及多个学科领域,如计算机视觉、自然语言处理、人机交互等,并且在信息传播、舆情管理和社交互动等广泛应用场景中具有重大意义,如虚拟主持人、智能助理、社交机器人等。

2、现有的语音驱动头部、手部和身体姿势生成方法主要分为三类:基于规则的方法、基于统计模型的方法以及基于深度学习的方法。其中,基于深度学习的技术是目前最为主流的方法。虽然当前研究在生成人体动作的流畅性和自然性方面取得了一定成果,但现有技术中的数据集主要包含有限人物的协同语音动作视频,风格比较固定,导致模型在训练时学习到的模式也相对单一。这种缺乏多样性的运动表现,限制了虚拟角色在复杂信息传播场景中的适应能力,尤其是在需要灵活应对多变情境和情感传递时的表现。


技术实现思路

1、为解决上述技术问题,本专利技术提供了一种基于视觉风格特征的多样性增强协同语音动作生成系统。所述方法由特征提取多样性增强模块、风格编码器多样性补偿模块和动作预测器多样性驱动模块共同执行完成,首先,特征提取多样性增强模块不仅从语音中提取特征信息,还通过引入一个自定义名为styleclips的额外影响来获取更多信息;在风格编码器多样性补偿模块中,设计了一个transformer风格编码器,采用加性自注意力机制池化层将风格剪辑编码为称为风格代码的深度学习表示,这允许styleclips对后续动作生成更好的产生的影响;动作预测器多样性驱动模块用于生成多样的协同语音动作。具体来说,利用交叉注意力机制将得到的风格代码和梅尔频率倒谱系数mfcc进行融合,并注入交叉条件自回归模块中,在生成人体动作时进行调制,使得生成的动作具有更高的多样性。

2、为实现上述目的,本专利技术采用的技术方案如下:

3、一种基于视觉风格特征的多样性增强协同语音动作生成系统,所述系统包括特征提取多样性增强模块、风格编码器多样性补偿模块、动作预测器多样性驱动模块,其中,

4、所述特征提取多样性增强模块用于对输入的音频信息及参考视频信息进行特征提取及特征增强;

5、所述风格编码器多样性补偿模块用于通过附加自注意力池化层的transformer风格编码器将提取并增强的参考视频特征表示为深度特征风格代码;

6、所述动作预测器多样性驱动模块用于通过交叉注意力机制将深度特征风格代码和音频有效信息进行特征融合,并在时间自回归网络中进行调制后输出第一结果;还用于利用身份信息对音频有效信息的编码结果进行调制后输出第二结果,将第一结果与第二结果输入解码器获得最终动作。

7、进一步的,所述特征提取多样性增强模块用于对输入的音频信息及参考视频信息进行特征提取及特征增强包括:

8、将语音音频 作为输入,生成全身身体动作序列,其中n为语音音频a对应的总帧数,表示输入的第n帧语音音频, 代表相应生成的第n个全身身体动作,总体目标表示为:

9、,

10、其中,g={}表示初始动作序列,‖‖表示欧几里得范数,argmin表示使函数达到最小值的参数值;

11、分别用  和  表示第i帧的手部动作和身体动作,且手部动作片段序列表示为  ,身体动作片段序列表示为 ;采用时间卷积网络对手部和身体动作片段序列  和  进行编码,得到手部和身体动作特征序列和 ;

12、将第i帧的手部动作特征和身体动作特征  和  映射到各自最近的码本元素, 来进行量化:

13、,

14、,

15、式中,m表示码本中的第 m 个向量, 和 分别表示量化得到的第i帧的手部动作码本元素和身体动作码本元素,q表示动作量化过程,  和 分别表示手部和身体动作对应的码本;

16、解码器将手部和身体动作对应的码本映射回运动空间作为动作序列:

17、,

18、,

19、表示生成的手部动作序列,表示生成的身体动作序列,d表示解码过程,e表示动作编码过程;

20、通过训练来优化编码器、解码器和码本:

21、,

22、其中,表示重建损失,sg 表示梯度停止操作,表示权重因子,表示承诺损失,表示矢量量化变分自编码器的损失函数;z表示全身身体动作码本,g表示动作编码特征。

23、进一步的,所述风格编码器多样性补偿模块用于通过附加自注意力池化层的transformer风格编码器将提取并增强的参考视频特征表示为深度特征风格代码包括:

24、将全身身体动作序列输入transformer风格编码器,通过线性层将特征维度调整为风格编码器期望的维度和格式,使用位置编码将位置信息与输入全身身体动作序列相加,得到风格代码序列;

25、通过使用附加自注意力机制池化层中的前馈神经网络对输入风格代码序列进行分割,并赋予分割后每个区域加权注意力权重,对标记之间的时间相关性进行建模之后,利用自注意力机制池化层将得到所有的风格向量乘以注意力权重并相加,得到最终的风格代码,

26、 ,

27、其中,是表示可训练的参数,表示通过transformer风格编码器得到的风格代码序列,表示每个风格向量的维度,上标t表示转置,表示归一化函数。

28、进一步的,所述动作预测器多样性驱动模块具体用于执行如下步骤:

29、结合交叉注意力层,利用最终的风格代码s调制基于音频信息提取的梅尔频率倒谱系数特征;包括,

30、将梅尔频率倒谱系数特征  和最终的风格代码s分别与投影矩阵 和相乘,其中,表示针对梅尔频率倒谱系数特征 的查询投影矩阵,用于生成查询矩阵 ,表示针对最终的风格代码s的键投影矩阵,用于生成键矩阵;

31、最终的风格代码s还与投影矩阵  相乘,表示针对最终的风格代码s的值投影矩阵,用于生成值矩阵:

32、,

33、 ,

34、,

35、,

36、其中, 为键值集合的维度,也表示查询集合的维度,f表示模态融合特征,attention表示注意力机制,softmax表示注意力机制中的归一化过程;

37、将模态融合特征f输入到基于时间自回归模型的动作匹配网络中,生成一系列码本向量索引和,表示手部动作码本向量索引,表示身体动作码本向量索引,包括:

38、时间自回归模型利用过去的手部动作  和过去的身体动作  预测当前的手部动作  和当前的身体动作 ,还利用当前的身体动作预测当前的手部动作  :

本文档来自技高网...

【技术保护点】

1.一种基于视觉风格特征的多样性增强协同语音动作生成系统,其特征在于,所述系统包括特征提取多样性增强模块、风格编码器多样性补偿模块、动作预测器多样性驱动模块,其中,

2.根据权利要求1所述的一种基于视觉风格特征的多样性增强协同语音动作生成系统,其特征在于,所述特征提取多样性增强模块用于对输入的音频信息及参考视频信息进行特征提取及特征增强包括:

3.根据权利要求1所述的一种基于视觉风格特征的多样性增强协同语音动作生成系统,其特征在于,所述风格编码器多样性补偿模块用于通过附加自注意力池化层的transformer风格编码器将提取并增强的参考视频特征表示为深度特征风格代码包括:

4.根据权利要求1所述的一种基于视觉风格特征的多样性增强协同语音动作生成系统,其特征在于,所述动作预测器多样性驱动模块具体用于执行如下步骤:

【技术特征摘要】

1.一种基于视觉风格特征的多样性增强协同语音动作生成系统,其特征在于,所述系统包括特征提取多样性增强模块、风格编码器多样性补偿模块、动作预测器多样性驱动模块,其中,

2.根据权利要求1所述的一种基于视觉风格特征的多样性增强协同语音动作生成系统,其特征在于,所述特征提取多样性增强模块用于对输入的音频信息及参考视频信息进行特征提取及特征增强包括:

3.根据...

【专利技术属性】
技术研发人员:孟明穆柯王妍侯小萍崔鸣宇朱永贵范肇心
申请(专利权)人:中国传媒大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1